文因搜索:智能的金融搜索引擎

大家好,我是文因互联的鲍捷。在过去十几年中,我和我的团队一直在致力于用人工智能(AI)技术改善人们的生活。我们参与过三星语音助手S-Voice、谷歌电视GoogleTV、西门子医疗语义搜索、Counselytices法规搜索、好东西传送门科技新闻推荐引擎等人工智能应用。人工智能正在把很多我们小时候认为是科幻的事情变成现实。能亲身参与打造这样的产品,更对人工智能的力量有了深刻的印象。

一年前,我们开始思考一个问题:人工智能是否也有助于金融行业呢?如果可以,该怎么切入呢?

智能金融:如何变魔术?

 

过去几年来,金融科技(Fintech)成为一个热门词。但是大部分的金融科技产品,还是停留在对金融信息获取、统计量化模型、交易完成的信息技术(IT)保障上。人工智能的金融应用还是个比较新的方向,整体上还处于探索的阶段。

过去一年中,我们接触了很多金融界人士,从风投到孵化器,从券商到私募,从银行到交易所,涉及的问题有行业研究、企业研究、尽职调查、交易撮合、并购、投资顾问、理财顾问、个人征信、企业征信、风险控制、系统风险防范等等诸多领域。我们发现,尽管金融面临的具体问题千差万别,但总的来说,集中在“价值判断”和“风险评估”这两个大问题上。

但是如何做价值判断和风险评估,就是仁者见仁,智者见智,没有一个统一的方法,甚至有时候看起来纯粹是“拍脑门”。比如我们请教过一位并购行业的前辈,怎么找到合适的壳公司。他告诉了我们一个“三分钟找壳法”,其中一个条件是实际控制人应该是大学毕业,40-50岁之间。这有什么道理?但是经验上可能就是有意义的。还有一次,我们问一位VC合伙人,判断投一个项目要多长时间?他说5分钟吧,基本上5分钟里就可以凭直觉做出判断了,看商业计划书里的三五页大体心里就有数了;还有看项目的来源,看谁在背书这个项目。最终做决定是很快的,乍看起来一点也不“理性”。

但是这其实很有道理的。金融决策的特点是要考虑的因素实在是太多了。金融产品可能是最复杂的商品。一份股转书有两百多页,还有大量的年报、半年报、研究报告、公告、反馈意见、尽职调查结果……但很少有人是看了这几百页的材料再做决定的,往往就是凭经验和人脉,直接“变魔术”,做出决定。

机器能不能也“变魔术”,替代人做出价值判断和风险评估呢?在市场上,也不乏这样的探索者。一些金融界人士也对此很担心。前段时间AlphaGo战胜人类围棋冠军,一位二级市场研究员就和我说,“以后我们的饭碗都要被人工智能抢走啊!”但是越深入理解金融,越发现,这种担心在短期内可能是多余的——虽然长期看真可能会发生。

我认为想让机器“变魔术”之前,要依次解决五个问题。这五个问题每一个都依赖前一个问题的解决。现在我们依靠人“变魔术”,是因为这个五个问题(特别是后面的问题)还没有完善的解决方案,所以还需要人的经验和人脉(信任、背书)来引导。但是每一个问题的解决,都可以让我们更多地利用机器的力量,获得更智能的工具来做出价值判断和风险评估,从而解放人力,有更多的时间去做只有人才能获得的“洞察”(insights)

第一个问题是从物理世界获得数字化的数据。大多数买方和卖方的数据,其实是很难被机器、甚至人去访问的。很多时候还是需要人面对面的交谈、亲临现场的访问,才能得到决策的依据。甚至仅仅是获得一个行业里中小企业的名录,往往都是很困难的事。现在有了新三板系统,有了巨潮网上的信息披露,才让数据获取成本降下来,并使后续的机器处理成为可能。最近股转系统要求券商留挂牌过程中的电子底稿,长远看就是特别有意义的事。

第二个问题是从“脏数据”中获得“干净数据”。数字化数据中依然有大量的“脏数据”,例如新三板披露材料中有1/4是扫描件,大量的公告是不规范的pdf难以做文本处理,大量的财务数据用不规范的表格展示。至于网上千差万别的新闻数据、研究报告,就更“脏”。很多数据(如财务、股权结构、股东结构)隐藏在图片中,难以提取、统计、汇总、比较。XBRL报表只解决一小部分问题,而且还没有对公众开放。现在各家机构都在用实习生、初级研究员做这些数据的提取工作,其实是人力的极大浪费。

第三个问题是从数据中辨认金融“实体”。实体(entity)包括企业、投资机构、人(高管、股东、投资人、合伙人等等)、行业、产品、事件、案例、法规等等。数据不仅是一堆汉字和数字的组合,一次定增公告里会提到项目、产品、定增对象(人或者机构),供应商和收入来源里会提到上下游企业,投资人简历里会提到学历和以前的职务。这些实体和它们的属性往往很有价值。例如一家券商曾委托我们筛选股东里不含契约型基金的公司、在江浙地区的投资基金等等,这就需要我们不仅把股东、基金的名字看成字符串,而是理解它是什么样的机构、有那些地域属性、分类属性等。很多这些数据,分散在很多地方,如股转系统、工商网站、行业协会、机构官网。只有做好实体的识别,才能把这些信息串起来。

第四个问题是发现金融实体之间的深入关系,形成“知识图谱”。金融决策需要的洞察,往往不是表面上一眼能看出来的。例如投资公司对企业的投资,往往通过各种子公司和“壳”来完成,仅仅依赖股东披露或工商注册信息(包括子公司、孙公司的工商信息)是不够的,需要一些规则和数据挖掘来发现隐藏得很深的关系。我们曾对一家投资公司做了个案研究,发现单纯从披露数据和工商数据,只能获得一半的投资事件,而通过深度规则挖掘,才能获得比较完整的投资组合(我们给对方打电话确认的时候,对方很吃惊:“你们怎么知道的” :D)。此外如行业对标关系,行业上下游关系、供应链关系、股权变更历史、定增与重大资产重组的关系、多张财务报表之间的数据交叉验证,都需要深入关联来自多个源头、多个时期、多个企业之间的数据关系。

第五个问题是在知识图谱的基础上表达业务逻辑。挂牌、定增、并购、对冲、二级市场交易等等,每一个业务场景都会有自身的逻辑。我遇到很多研究员、投资总监,在学习Python、R、Matlab,因为他们痛感自己脑子里的逻辑,难以用文字或者Excel表格表达出来,市场上也没有一个好用的工具帮助他们在数据的基础上,把被经验验证有效的业务逻辑清晰地表现出来,免得总是要做简单重复劳动。逻辑的表达可能是看数据的一些方式、处理数据的一些规则、展示数据的一些模板。一旦可以把逻辑数字化,其实一些比较初级的价值判断和风险评估就可以由机器来做了。

解决了这五个问题,我们就拥有了“变魔术”的有力道具。当然,这并不是说,我们需要把这五个问题都解决了,才能去辅助人来“变魔术”。每个层次都可以比之前的层次更能帮助人快速发现洞察、做出判断。每多一些机器的辅助,人就可以更好地集中精力去发现机器不善于完成的工作,当好“魔术师”这个角色。

上述的过程总结为下图:

image (1)

 

那当前这个阶段,技术发展到了哪一步呢?就金融领域的应用而言,我们认为美国领先中国很多。美国在各个层面都有相应的服务提供商,而中国仅仅在干净数据这些层面有了成熟的解决方案。在实体数据层面,中国还只是在一些局部刚刚开始(如一些行业数据库和工商信息服务商),美国七八年前就已经有了成熟的服务。再往上图谱数据和业务逻辑,中国还基本没有对应的服务者。不过也需要指出,业务逻辑和“魔术”的层面,美国金融领域的尝试也是初步的,现在还很难说已经走通了。一些企业的例子见下表。(关于这些企业的详细介绍,在@文因互联 的官方微博有持续报道)

image (2)
所以总结来说,美国的成熟行业前沿(state of the art)在图谱数据这个层面,而中国在干净数据层面。

因此,我们认为,当前中国的金融智能化,应该聚焦于基础数据的实体化和图谱化。今年3月份我们邀请了很多金融界的人士参加“语义对话金融研讨会”,与会人士也表示,当前最需要的,不是让机器来代替人做判断,而是提供优质的、经过整理的数据,让数据更可信、更好用、更容易被发现和获得

 

文因搜索:让金融搜索更容易

 

基于上面这些思考和观察,我们开发了“文因搜索”这个产品。您可以在我们的微信公众号“文因新三板”中获得使用的入口,也可以直接在手机或者PC端浏览器中访问 http://search.memect.cn

用微信扫描这个二维码:

qrcode_for_gh_b338ff47311a_258 (2)

可以在菜单中选择进入搜索界面

7334ba59jw1f47v0q8fvoj20qo1begnt

目前,我们聚焦在新三板市场上,提供新三板投资决策中需要的核心实体数据。搜索现在可以返回4种结果,分别为:企业、投资机构、高管、定增事件。文因搜索覆盖了7000+家新三板企业,60000+个投资机构与资管计划,80000+高管,4000+次定增事件。

企业搜索

输入关键字,可以呈现全部相关企业

微信公众平台

关键字可以是企业的名称或者行业关键字:

微信公众平台

通过行业关键字搜索,可以按产品或者行业的名称需找该行业所属企业,或者该产品的提供商。想知道有哪些企业属于人工智能行业? 或者电梯清真?现在不仅可以在官方定义的140个行业中过滤,还可以在20000多个产品和行业的关键词上寻找相关企业。

微信公众平台

通过企业名称搜索,可以通过企业简称、股票代码、汉语拼音搜索。

微信公众平台

搜索结果中包含了传统金融客户端“F10”提供的基本企业和财务信息,还集成了参股机构、定增信息、工商信息、股权结构、高管名单等。

 

投资机构搜索

投资机构搜索里我们做了深度的投资关系的发现,尽可能多地发掘了在公开披露材料里没有直接声明的投资主体

微信公众平台

通过行业关键字搜索,可以搜索到所有对相关行业的新三板企业进行投资的投资机构,按投资次数排序。这个可以告诉我们在某个行业上各投资机构的投入力度,了解各大机构的投资偏好。

微信公众平台

对每一家基金,我们可以看到它在新三板上的直接参股情况和子公司投资情况。(说个八卦,我们给一家券商看搜索结果的时候,对方说:其实很多结果我们是故意不想让人知道的,你们要是不列,我们可以给你们钱 :D )

微信公众平台

 

高管搜索

微信公众平台

通过简历关键字搜索清华大学,可以看到清华大学的校友有哪些在新三板上(989个)。其他的,北京大学有663个,浙江大学615个,复旦大学398个,武汉大学367个,厦门大学362个,中山大学348个。你也可以试试,看看你的母校有多少人?

微信公众平台

通过高管姓名搜索,可以直接定位到该名高管的简历:

微信公众平台

每名高管我们都提供格式化过的简历,更清晰、易读。职务、学历、出生日期都一目了然。

 

定增事件

微信公众平台

通过行业关键字搜索,可以搜到该行业相关的所有定增事件:

微信公众平台

通过企业名称搜索,可以搜到该企业的定增事件:

微信公众平台

在定增详细页中,会列出发行对象详情、持股期限、 认购价格、认购数量、认购金额等。

 

总结和未来的计划

 

文因搜索现在解决了哪些问题?

  • 按任何关键词发现企业、投资机构、人员和投资事件,不被官方定义的分类限制。想怎么搜,就怎么搜
  • 深度发现企业和投资机构之间的关系,洞察隐藏的潜在联系
  • 干净、专为关心股权投资的人士打造,没有散户才关心的那些噪声内容。界面上也尽可能适应股权投资人士旅行多、时间宝贵的特点,随时随地搜、只展示最有价值的数据
  • 聪明,知道关键词之间的潜在关系,会帮你联想你自己都不知道的关键词
  • 在任何平台上、任何设备上,不管是Mac,Windows,Linux,苹果手机、安卓手机、平板电脑,还是其他什么,打开 search.memect.cn 都可以搜索。在路演现场想快速查看台上的企业数据?找路演讲者的简历?用文因搜索。
  • 每一个搜索结果,都可以通过微信、邮件分享给同事,可以保存下来以后再看(用微信收藏或者浏览器收藏)。想在微信群里讨论一个企业、一个投资机构、某个人?最方便的就是分享文因搜索的结果链接。

这当然不是全部!很快,我们还会看到一个更强大的搜索引擎发现市场变化,把握潜在商机

  • 主板和美股的数据。目前我们聚焦在新三板,以后会逐步加入主板和美股的数据。
  • 越来越聪明。我们在不断教文因搜索各种千奇百怪的热门和冷门知识,比如几万种产品之间有什么关系?国民老公的投资公司投了谁?每天都有上万条新的知识源被加入到背后的智能引擎里,构造一个更强大的“知识图谱”。
  • 多维度的数据过滤和排序。只关心创新层企业?bingo,其他的都隐藏了。想看看高管学历构成?一排序就一目了然了。
  • 异常事件的提醒。企业和行业中发生了哪些值得注意的大事?
  • 企业大事一览。企业发展历程中,发生了哪些关键事件?人员、资金流向是什么?
  • 公告和法规搜索。指定企业或行业,有哪些适用的法规和相关的公告?如何借鉴以往的案例?
  • 关注和订阅快报。持续关心一个企业或者行业?点击“关注”就可以订阅该话题的文因快报。

关注我们的微信“文因新三板”,或者微博@文因互联,就能得到及时的服务更新提醒。

虽然我们现在离“变魔术”还很远,但是我们相信人工智能,特别是知识图谱技术的潜力在金融领域还远远没有发挥出来。我们会一点一点为“魔术”打下基石,为用户节约时间,每天多一个小时,可以用来睡觉、散步、学习、看《魔兽》,当然也可以去挣更多的钱…….

Stay tuned!  不久后咱们接着聊。

 

===== 端午节的分割线 ======

端午节到了,文因互联为你送上精美礼品,分享你的搜索体验,即可得好礼。

使用文因搜索的用户可以将使用感受告诉我们,欢迎你告诉我们以下信息:

  1. 通常在什么情形下使用文因搜索?
  2. 用过文因搜索哪些板块?搜索什么内容?
  3. 认为文因搜索最突出的功能?还希望文因搜索具备哪些功能?
  4. 除了文因搜索,还使用哪些工具获取新三板信息?

当然,我们也欢迎不限形式、不限内容的吐槽

你可以通过如下方式联系我们:

  1. 直接加我的微信反馈意见:baojie_memect
  2. 发送到我们的邮箱:contact@memect.cn
  3. 直接留言在本文下方并留下联系方式(方便后续通知抽奖结果)。

有奖征集截止于下周三(6月15日),以上三个通道永久开通,随时接受你的反馈。

我们将从参与者中评选出两个“最佳吐槽奖”,送出来自文因互联的神秘大礼,所有参与的用户都将获得文因互联送出的专属小礼物。

再提醒一下:通过“文因新三板”公众号菜单,或者在电脑端访问 search.memect.cn 也可以进入文因搜索。

 

 

 

One thought on “文因搜索:智能的金融搜索引擎

丑郡马进行回复 取消回复