从 Kensho 看大工业金融的发展路径(上)

2018年3月7日,美国智能投研公司Kensho被标普全球以5.5亿美元收购,这是迄今为止,华尔街最大规模的人工智能公司并购案。

5.5亿美元贵不贵?Kensho究竟能做到什么?它的模式将给国内智能金融行业带来怎样的启示?为什么智能金融领域没能出现第二个 Kensho?为什么智能金融不必复制 Kensho?

在上半部分的文章中,文因互联 CEO 鲍捷博士结合两年多的实践探索经验,为大家一一解答。

作者介绍
鲍捷博士,文因互联 CEO。拥有20年学术界和工业界的相关经验。美国Iowa State University人工智能博士,RPI博士后,MIT访问研究员,W3C OWL(Web本体语言)工作组成员,前三星美国研发中心研究员,三星问答系统SVoice第二代系统核心设计师。主要研究领域涵盖人工智能的诸多分支,包括机器学习、神经网络、数据挖掘、自然语言处理、形式推理、语义网和本体工程等,发表了70多篇领域内相关论文。是中文信息学会语言与知识计算专委会委员,中国计算机协会会刊编委,W3C顾问会员会代表。2010年以来关注金融智能化的研究和应用,成果有XBRL语义模型,基于知识图谱的基本面分析、金融问答引擎、财务报告自动化提取、自动化监管等。

Kensho公司简介
2013年,Daniel Nadler创立了Kensho;2014年Kensho与高盛合作,并获得高盛的1500万美元投资;2017年,获标普国际领投的B轮5000万美元融资,估值达5亿美元;其核心产品是金融决策引擎“warren”,曾成功预言英国脱欧后的英镑走势,及2017年美国科技股的强势上涨。


以下为演讲原文:

Kensho 以5.5 亿美元被收购,这个消息到底是一个利空?还是一个利好?

我今天想要和大家探讨:

  • 第一,Kensho是什么;
  • 第二,怎么做出 Kensho;
  • 第三,我们能不能做到;
  • 第四,是否应该那样去做。

接下来要讲的,有的是事实,有的是观点,有的是信仰。

事实是大家都已经看到的东西;

观点我相信而且有一定的证据能够证明的东西;

信仰是在遥远的未来才能够证明的东西。

AI的循环:人神共愤 or 骗子

先做一个简单的自我介绍,我从1998年开始做人工智能的研究,人工智能有几个大的学派,神经网络、机器学习,还有逻辑学派,或者说理性主义学派,这几个学派,我或多或少都有一些涉猎。

我在2001年去的美国,在衣阿华州立大学拿到博士学位,博士期间主要做语义网的研究,这个领域现在改名字叫知识图谱了。2007年博士毕业以后,去了伦斯勒理工学院(RPI),2010年的时候去了MIT,在 图灵奖得主Tim Berners-Lee 的实验室。2011年去了三星美国研究院,在那里做自然语言处理的研究,研究问答系统。2013年以后,开始自己在硅谷创业。2015年的时候,把团队带回中国来,专注在智能金融领域。我们的公司叫文因互联。

自己跟金融有关的经历,是2010年还在MIT的时候,跟MIT管理学院,还有Fidelity的工程师一起做了一个 XBRL 的语义建模。XBRL 是金融报表语言的一个国际标准,但是只是一个 XML 的标准,它并没有语义,不能做推理。

比如说财务自动校验,是它本身没有的能力,我们给它定义了一个语义模型以方便后续的自动化工作。后来基于这个工作,我们在2011年做了一个基于语义和社交数据的基本面分析的论文,后来这篇论文拿了 IEEE金融工程和计算智能会议最佳论文。

2015年以后,我们就把其他的业务都砍掉了,专门做金融这方面,前前后后实验了很多产品。一开始做新三板的数据库,然后做金融搜索引擎、自动化报告、公告、研报的摘要,机器人等等。我们主要用知识图谱技术帮助金融机构做业务的自动化,如自动化读公告、自动化监管、自动化审计、流程自动化、问答自动化等。

人工智能到现在也有60年的发展历史了。自从我入行以来,我也经历了两个小的低谷,总的来说,人工智能的发展基本上都是下图这样的:

一会儿说人类要毁灭了,一会儿又说人工智能是骗子。尤其是去年,“人类要毁灭”了的新闻到处都是,但从今年以来,各种反思乃至否定的文章也开始出现。

以下是几个神化人工智能的例子:一个是说高盛的交易员要被人工智能取代了。

另一个是说35岁以前,如果还一事无成,你还能去哪?

最后一个新闻最令人恐慌,用了一个非常夸张的词,“人神共愤”。

这到底还是不是人工智能?

要判断是否具有AI属性,不考虑科学论证的严谨性,一个直观的判断标准,看里面是否有机器学习、知识图谱、自然语言处理等成分,如果没有,其实它更多的是传统的自动化。

回过头看这三个新闻。

比如说第一个新闻,高盛的交易员只剩两人,是人工智能导致的吗?并不是。因为这里面并没有什么人工智能的技术。交易本身是一个执行,并不涉及策略的形成。交易本身分很多级,从低级到高级。现在真正被替代的应该就是一些机械的,既定的策略,去执行一下就好。与其说是人工智能替代了这些人,不如说是数据库和网络替代了这些人。

第二个技术,其实是在讲会计。现在我们看到德勤等很多会计公司都推出了过程的自动化、财会的自动化,这些技术是不是人工智能?很难说是不是人工智能。

最后一条关于Kensho,Kensho的的确确是人工智能。从数据层到表现层,最后到策略层,是人工智能的一个综合应用,Kensho有一个很大的知识图谱部门。

大约从2013年、2014年开始,新一代真正的人工智能系统开始应用在金融领域,所以人工智能确实是在改变这个世界,改变这个行业。

但到底是不是真的会做到人神共愤的层面,我们再往下看故事。

Kensho 能做到什么?

Kensho 这个词是什么意思?Kensho 是一个日语词,它是日语的“见性”,明心见性是个佛教用语,代表的是说大彻大悟,醍醐灌顶的意思。

说起来很神,本质就是三个字——“相关性”

大数据领域兴起后,其核心想法是,与其去发现因果性,不如把数据积累起来,寻找事件和资产之间的相关性,以及事件对价格、特别是价格长期趋势的影响,这就是 Kensho 提供的主要服务。

因为我不是 Kensho 公司的,我所知道的消息都是从公开渠道收集来的,或者打电话从老同学、老同事那里收集来的,未必完全准确。但我们理解 Kensho 并不需要真正的去深入它的系统本身的那些细节上去,我们从它的逻辑和它的基本服务,大体上可以推断出来它要干什么,建立这样的系统需要什么样的东西。

我们看几个例子,Kensho 推出的最主要的应用,就是 Warren 搜索引擎,或者说决策引擎。它能在一分钟内,完成过去分析师要做几个小时甚至几天的工作。

首先, Kensho 的底层是一个很大的数据库。两年前,它是9万个数据集的数据库,在此基础上有各种事件、价格、基本面。

这个图是某一个ETF(Exchange Traded Funds 指数基金)的基本面研究,下面有哪些资产在ETF下面,它们最近的趋势是什么,比例是什么,可以往前的推断指标是什么。这是 Kensho 基本的数据,像这样的数据有成千上万个。

在此之上,刚才提到了,它要做一个趋势性研究,核心就是说如果有一些事情发生了,它跟资产价格之间,在长期来看是什么样相关的趋势。图上这个例子在讲,欧洲的整个资产相对于英国的贸易,它们之间的相关性是什么,这其实是一个很长很长的图,我只截取了前面一段,就是在讲相关性的各种指标是什么。

第二个例子是原油(见下图),在某一种价格变动后,WTI原油的表现一周内会发生什么变化?这也是各种指标和指标之间的相关性。所以Kensho里不仅有股票,也有各种大宗资产、期货。

第三个例子是事件影响分析,下图描述了2000年以来,春节对资产的影响,由此可以决定我们的策略。“事件影响分析”也是 Kensho 在新闻里最常见的一个卖点。

第四个例子是长期趋势分析,2010年以来,应该是从美股恢复以来,每年9月份,三大指数,它们的表现是什么样。所以它有非常多数据切片的分析。我记得2016年美国大选结束的时候, Kensho第二天就推出一个图,分析如果是共和党的总统上台,对于资产长期来看,会有什么样的影响。各种相关性的比较,可以想象出来无穷种的组合。

第五个例子是一个策略:如果原油价格超过了50美元一桶之后,我买入,5天之后就卖出,这样的一种事件,从历史预期来看,我能得到什么样的回报率。像这样简单的策略,也是有无穷多种的组合的。

对一个初级分析师来说,要做以上这些事,他要去收集数据、整合数据、自己做相关性分析,还要画图。Kensho 则可以一分钟内完成这些以前要几小时,甚至几天才能做完的事。从这点来讲,华尔街有些人会“人神共愤”,是可以理解的。

我们也注意到,刚才有几段截图是从电视上来的,这是CNBC。在 Kensho 的早期,它的几个商业模式之一就是跟媒体合作,帮助媒体分析。另外一个就是像高盛这样的获客、留客、分仓的商业模式。

在电视访谈里面,也有人问过 Kensho 的创始人,问你们自己去炒吗?他很坚定地说,我们自己不去做交易,我们要做成千上万家金融机构决策的提供商,但我们自己不下水做交易。有一段时间Kensho被高盛买了以后,其他人就很难用到了,只有高盛的客户才能用。我又问了我在高盛的同学,他们自己也不太能够用到这个东西,所以外边也很难用得到。不知道在座的,有没有用过kensho的?(参会者回复)没有。

5.5亿美元贵不贵?

不久以前,Kensho 以5.5亿美元被标准普尔收购,贵不贵?

大家一开始对 Kensho 的预期远远高于5.5亿美元。公认 Kensho 有非常巨大的市场。因为整个金融的数据市场,大概是260亿美元。

大约在三年前,有一个新闻说,说如果广泛加以应用,那么 Warren,即Kensho 的搜索系统,可能会撼动长期以来,被彭博社、汤森路透所垄断的260亿美元的金融数据市场。如果它真正能够撼动市场,它将来的价格不会是5.5亿美元。

下面的几句话都是正方观点,在两年前或三年前的时候,大家看到 Kensho 的时候,其实预期是比现在更高的。其中一个说,如果Kensho 的产品最后能够研发成功,金融机构的分析师和研究人员将面临灾难,面对更快、更好的机器人分析师,他们毫无胜算。

最后一句话,也是Kensho 创始人自己在一次访谈里说的,他说他推出了 Kensho 这个系统以后,有人给他打电话说:“你这个叛徒!如果你发现了这种关系,你就用这种关系来交易,但你不要公开它,你公开它,就导致大家都没法交易了。”

事实是,5.5亿美元的价格,从某种程度上说明,上述预期并没有达到。

我也找到了一些针对 Kensho 的反方观点,这些观点不一定正确,但是非常值得思考。

第一个说法是,彭博可以很容易地复制 Kensho ,而且可以做得好100倍。我在咨询彭博的同学后,感受是,彭博在短期内,还做不出Kensho。自从我回国以来,我听到了至少不下10个团队,试图去复制 Kensho,也有一些非常大的国家级机构,也想去做这种东西,到目前为止,还没有一个能做成的。

第二个观点来自高盛的朋友。他说这些年来,并没有看到 Kensho 做出什么牛逼的东西,也没见高盛内部人用过 Kensho ,更多是高盛的客户在用。

第三个,有人质疑,说 Kensho 提供了相关性,统计过去的事件对股票的影响,针对未来的操作会有指导意义吗?胜算有多高呢?我们也知道,其实我们在买基金的时候,都会有这么一条说明,过去的业绩不等于未来的预测。过去的相关性是不是对未来有指导意义?可能不同的学派对这些有不同的想法。

最后一点,我想应该是被证实了的。普通人想一夜就能成为坐着数钱的交易员的话,还是洗洗睡吧。Kensho 这样的大杀器,到底能不能让人挣钱,这是第一个问题。它能不能让普通人挣钱,这是第二个问题。我想这两个问题,在目前还没有明确的答案,至少现在没有肯定的答案

我们回过头来看,为什么 Kensho 能值5.5亿美元?

5.5亿美元,在某些情况下,我们看是个小数字,但已经是近年来最大的一笔人工智能公司的并购了

在人工智能领域里,一般来说,常见的并购额度是1亿到2亿美元。我们知道,Siri 当初的收购价格是2亿美元。微软在几年前收购 Powerset 的时候,也就是它的智能搜索引擎,2亿美元。最便宜的是亚马逊的智能音箱背后的搜索引擎True Knowledge,2600万美元。

所以说相比之下,Kensho卖了5.5亿美元,可以说是给人工智能公司打了一针兴奋剂,对于某些投资机构,也是一个利好的消息。

我们从kensho底层来看,想复制它的的确确是一件不容易的事情,不管是在中国,还是在美国。

基于这样的技术复杂度,5.5亿美元是一个非常合理的价格

构造 Kensho 的技术关键

为什么过去4年没有一家团队能够成功复制 Kensho?

Kensho包含三个难度比较高的组成部分,这三个组成部分在中国的基础目前都还不到位。它们分别是:底层的结构化数据库中间层的金融领域知识库前端的问答技术

第一个部分是结构化数据库。如果我们简化一下 Kensho,可以不精确地认为 Kensho 是给高盛的结构化数据库做了一个自然语言的前端。如果让 Kensho 从头把所有的结构化数据库做出来,那一两年绝对不够,十年也不一定行。高盛在过去20年多少万人的积累,才创造出来这样一个底层数据库,比如SecDB,现在应该远远不止9万个数据集了,在此基础上才可能有 Kensho。有了上述的基础设施以后,在上面做自然语言的前端,才能水到渠成。

Kensho 的产生也依赖于过去十年美国整个数据生态系统的发展。2009年奥巴马上台时,曾发布过一个总统令,要求美国所有政府部门都开放数据,其中也包含了大量金融部门,包括 SEC。美国所有基础证券的信息,各个细分领域的国民经济政府数据都是开放的,所有人不需要任何申请就能拿到。到目前为止,美国政府已开放了上百万个这样的数据集。

而在中国,这样开放的数据基础近乎于零。现在连基础证券的数据,包括新三板或者主板的 XBRL 数据,还不能让所有人免费、公开地访问。这个数据生态的差距是以光年来计算的。

第二个是金融领域的知识库,在做金融统计时,会有各种关联分析、回归分析和细分子领域的分析,比如产业链、财务模型、行业模型,宏观模型、投资模型等等。

以财务模型为例,美国有 GAAP 模型,中国有 CAS 模型,这都是成千上万条不同的会计准则,有了这些准则后,我们才能做财务的一致性校验。

在产业链领域,国内也有一些公司在做。美国的Capital IQ公司,很早以前就把产业对标做得很透了。而国内,还远远没有做好给公司打标签,或对标研究这件事。行业模型、宏观模型、各种投资模型,现在也都是方兴未艾。我们如果想做好上面提到的 Kensho的几个案例,逃不掉这些模型。而要做这些模型,需要协调各领域、各分支的专家,整合各种各样的专家知识。目前在中文领域,这一块还比较缺失。

第三块,从技术上来说是更有挑战的东西,就是前端问答技术。前几天,我在知乎上回答了一个帖子,有人问:Kensho 能不能复制?复制的核心技术要点是什么?我回答,前端问答是其中的一个大挑战。一位读者留言说:问答技术没什么了不起,现在搜索引擎公司早就解决这个问题了。

这是一个误区,像小冰这样的问答机器人,大家看起来已经很智能了,但这种技术很难用在 Kensho上,因为这是两种完全不同的技术路线。

小冰本质上是一种基于检索的技术。它是从一大堆文本里头,找到过去存在的相似问答,再做答案和问题间的匹配。用术语来说,是用端到端的深度学习的模型来做训练。但这样的模型,有两个问题:第一,它无法精确地理解这个问题是什么,就是说它无法进行语义解析;第二,它的答案很难被构造出来。比如,像上述Kensho 例子中一些各种不同切面的切分,各种不同指标的组合,我们可以设想出无穷多种的组合,但用深度学习技术,却无法生成无穷多种答案。

如果想做到这一点,我们必须要做语义解析也就是真的理解用户说的话,理解他说的词是什么意思,词和词之间是什么关系,这可能是这个问题最难的一点。到目前为止,这还不是一个完全被解决的问题。具体要做语义解析,又要涉及大概十几种非常专业的技术。小冰的技术是没有办法用到 Kensho 这样的强知识性问答中的。

回顾了这三个关键点后,我们可以说,想建立Kensho 这样的系统,要依赖于很多先决条件,包括数据基础、领域知识库基础和前端问答基础,这三块都很有挑战。对专业人士而言,这不是一个令人吃惊的结果。因为在过去40年的专家系统开发中,这些问题一直都困扰着整个知识工程界,只是现在在金融领域,我们再次遇到了这些拦路虎。

所以我要为 Kensho 团队点赞:他们做得非常好,Kensho团队现在是600多个人,他们技术部门是100多人,用100多个技术人员,就能把这样高复杂度的问题做到现在的结果,非常不容易。

跳出 kensho 思考智能金融

前面主要是在讲 Kensho 是什么,大多数都在陈述事实。在这一篇章,我主要讲我的观点,还有信仰。

先说一个事实,过去4年了,我们没有看到真正的 Kensho 的复制品。为什么会没有?我提出两个观点和一个信仰。

第一个观点,Kensho 不会取代任何人,所以说刚开始我给大家看的三个新闻截图,我认为是不会发生的。Kensho 不会取代任何交易员,Kensho 不会取代任何投资经理,Kensho 不会取代任何分析师,甚至 Kensho 未必会取代任何实习生。因为它所要做的事情跟我们对它的期望,其实是有很大的距离的。

第二个观点,Kensho在中国目前无法复制,从技术、产品、商业模式几个层面上来分析。

技术层面刚才分析过了,想造出这样的产品来,可能还需要一段时间的发展。

数据层面这边,金融数据是不是能开放,基础数据库、公告数据库、研报数据库,市场上是不是有厂商可以提供?中国现在有400种公告,每天就有大概2000多份公告,还不算新三板的。这些公告绝大多数没有结构化,什么时候能够结构化?

我们之前有研报的一致性预期,研报里面仅仅只有这些信息可以用吗?很多其他的信息,不管是做交易,还是做监管,都是需要的。

还有新闻,每天成千上万条新闻。舆情监控基本上只能做到一个正负面,是不是可以再深入分析?大量的新闻里面的数据是不是能够被应用起来?我们脱离这些数据基础来造 Kensho,现在是造不出来的。

最后一点,从商业模式上来讲。Kensho最早的商业模式,应该是帮助这些券商获客,或者来提高客户留存率。因为券商作为一个服务机构,它向客户提供投研能力,让更多的交易发生在自己的平台上面,从而提高分仓佣金,这是一种商业模式。Kensho 从中可以分到一笔钱。这个模式在中国能不能复制成功?到目前为止还没有先例,也许可以。

最后我认为,我们现在做智能金融,可能大家就直接奔着提高交易的效率,或者是挣更多的钱,或者是打败这个市场的思路,这个模式是不是应该追求的?经过两年多的探索之后,我认为这个事情未必应该是这样的,或者说智能金融应该有一个更大的途径,而不仅仅是追求 Kensho 这一个途径

这个途径,我认为应该是通过零件的打造,逐步走向所谓大工业的金融

前两天,我们跟另外一个证券公司的人聊过,他们从两年前就开始想复制 Kensho,内部加上外部的合作商一起开发,都开发不出来,他很失望。

“Kensho”,打引号的Kensho,不是说Kensho本身,而是这样一种聪明的金融专家系统,是我们的目标。可能路径比我们的目标更重要。目标是引导我们走向未来的一个明灯,但是我们真正想走到目标,更重要的是怎么去设计这个路径。

是不是我们直奔着目标,这个路径就对了?大多数的历史进程里面,证明不是这个样子的,我们需要迂回。

所以在我看来,就目前这几年时间,比较合理的目标和路径,是把一部分信息处理流程标准件化,这是目前阶段比较合理的追求目标。

大概两年前,我去一个资管公司,他们有千亿以上的总资产。总经理问了我两个问题:第一,你现在立即、马上就能帮我挣钱吗?第二,你是不是立即、马上,就能够帮我比市场上其他人挣更多的钱?

我实事求是地说,好像这两个答案,我现在都不能给你肯定的答复。

他说如果做不到,那你们搞智能金融还有什么意义?

我相信这个想法,可能在那个时候非常普遍,是一种非常高的预期。最近这两年跟大家沟通的过程中,越来越少地听到这样的想法。

我们跟多家机构合作都找到了更小的落地点,大家不再追求这样一个可以说是非理性的目标了。

回过头来,咱们想一想,如果这家公司有数千亿,你能持久地高于市场的回报率,最终的结果会是什么?这种事情真的有可能发生吗?任何人也打败不了市场,市场打败不了市场本身。

 

如何跳出 Kensho 思考智能金融?

在下半部分的文章中,鲍捷博士将细致阐述一种反常识的新思路——智能金融的切入点,一定不是股票交易,离交易越远越能落地。通过零件的打造,逐步走向所谓大工业的金融。

请期待周四即将发布的《从 Kensho 看大工业金融的发展路径(下)》

 

发表评论