即将到来的智能金融军备竞赛

看到振波二象在微博上说“国内排名靠前的投资机构大规模上人工智能了,生存不易啊”。就这个话题多说几句。

现阶段的智能金融

智能金融现在中国市场上看到最多的是征信。在美国,我接触较多的有两个领域,一个是传统大银行里的数据分析,另一个是交易策略的生成,类似桥水(Bridgewater)、Kensho在做的。有不少同学、前同事在这些机构里工作。当然人工智能分支很多,其他的分支和金融的结合也有很多的应用。

这些机构里的人工智能,大体上可以分为机器学习和语义分析两大块。其实从算法层面讲(从我了解到的有限情况看),没有什么太过神奇的东西,都是十几年前我们就知道的,很多就是十几年前我们做过的项目的延续。不管是征信还是策略生成,或者信息挖掘,基本都可以映射到“语义数据集成”这个经典的老问题上去,进步一些的就是语义搜索。当然这个问题解决起来也不是那么简单,要机器学习、数据库、本体和知识库等多种方法的混合应用。所以你看这些公司招的人,也差不多就是这样的人。比如桥水招了好多做问答系统的、知识图谱的人,很多我们的老朋友都跑过去了。

虽然看似是老问题的新应用,但是在实践中还是困难重重的。那些在彭博社、摩根大通、摩根斯坦利的同行们,在这个问题上也投入很多年了,也一直没有彻底解决问题。我和他们聊了以后,觉得有技术的问题,也有组织的问题。

技术问题

先说技术的问题。有些没接触过这个问题的金融机构,会低估了这个事情的复杂程度,觉得随便找几个机器学习、“大数据”的大牛就解决了。有的觉得投入一百万、两百万人民币,人力堆上去就可以解决了。还有更传统的机构,喜欢用“小妹科技”的,招很多月工资两千块的小妹,一百个小妹解决不了的问题,那两百个小妹就能解决了吧!但是金融产品可能是最复杂的商品,人的分析能力终究是有限的。

技术问题在我看来至少涉及两个方面:数据问题和分析问题。这两个问题都需要大的投入才能做出一个对特定业务场景有用的应用。

数据问题,就是从原始的脏数据进来,到最后数据之间发生“反应”,产生“魔术”,要做哪些事情。不管是大银行里要处理内部各部门数据的集成,还是征信机构要把企业或者个人内部、外部各种数据之间的关联,都涉及到如何把基础数据整合、清理,逐步提升质量的过程。这几年来,大家逐渐发现这个过程就是把脏数据知识图谱化的过程,具体来讲有这么几个大的步骤:

1. 实体的提取。实体就是金融决策中设计的人、公司、事件、产品这些基本概念。我们要知道谁是谁、谁不是谁,这就涉及实体提取、实体分类、实体消歧、实体对齐、实体链接等等一系列技术。

2. 实体之间关系的发现。比如在投资领域,我们要找到一个公司的真实的股权结构,就要在一层一层的股权链条里梳理,把隐藏的关系发现出来。某些时候我们甚至能预测关系,比如从某次异常定增事件猜测重大资产重组的可能。还有更基本的,行业上下游的梳理等等。

3. 查询。这是上面两步,就是实体和关系发现之后,我们逐步提高数据的可查找性。金融数据本身往往是分布式的、异构的、充满噪声的、非结构化的。这种数据本来是没办法查询的,完全结构化又成本太高。所以在工程上,就要采用混合的存储结构,综合文本查询、传统数据库查询和知识库查询(比如RDF或者图数据库)的优缺点。

4. “魔术”。有了良好的底层数据,业务部门才能得出神奇的结论。一个公司的投资亮点是什么?一个P2P基金会不会跑路?这种结论不要说一般人得不出来,一个金融从业人员要是没有具体接触过这个问题,也很难一下子看出端倪。所以称为魔术。机器取代不了人做判断(别听媒体耸人听闻),机器只是提供了产生魔术的道具。怎么适应魔术师作出好的道具(比如Palantir那样的),也是不容易的。

分析问题,我觉得也可以分几个层面,从容易到困难:

1. 首先是基础数据的可访问性。这是其他一切事情的基础。基础数据如果被封闭在部门的高墙里,或者封闭在Excel表格里、pdf文件里、专用的数据终端里,那就会不得不要很多很多的人去天天复制、粘贴,手工录入,进行这种高度浪费人力的工作。现在又是移动时代,人们在手机上经常需要做一些快速的轻量级的信息处理,传统的金融数据工具都太重了,可访问性不好。

2. 数据的可发现性。金融上大家面临的问题不是数据太少,而是数据太多,人根本就淹没在数据里了。怎么从纷繁芜杂的数据里找到少数真正有价值的数据?怎么快速定位只是模模糊糊有点印象的数据?这些是后续分析的基础——因为金融分析一定是人和机器协作的过程,不是机器有个银弹算法就能搞定的,一定要提高对人友好的数据可发现性。

3. 数据深度关系的发现。找到那些人力根本看不出来的关系。人最多能看一两百个维度,机器可以看成千上万个维度。比如一个企业的重大风险提示和当前发生的新闻事件之间的关系,人力是很难监控和判断这么多企业的那么多相关动态的,机器可以帮助我们。

4. 领域知识的集成。金融涉及国民经济各个领域,官方分了一百多个领域,只是为了管理的方便,真正可用的领域大概有几百个。这些领域都或多或少需要集成领域的知识。不管是投资有色金属还是珠宝,领域的关键概念、产品分类、关键人物、市场竞争情况等等,都是需要梳理的。

5. 金融业务知识的集成。并购、征信、融资、资管、对冲、二级市场交易等等,在每一个具体的业务场景上,都需要业务逻辑,然后在基础数据和领域知识的基础上表达这个逻辑。并购找壳有逻辑,股票日内交易预警有逻辑,这些逻辑要在数据之上表达为模型。需要一个系统来方便金融人士表达这些模型、重用这些模型、学习这些模型。

6. 策略的生成。到了最高的层面,就又是“魔术”了,机器辅助我们做出了价值判断、风险判断,通过过往的案例或者既定的逻辑,提供给我们可行的策略,或者策略的决策依赖点。

上面讲的数据问题和分析问题,要持续投入至少几十个人年才能见效的。没有底层的基础的工作,就想跳到“魔术”的层面,那也是不切实际的。当然,这并不意味着底层的工作、中间步骤本身就没有实用价值。比如仅仅是金融的基础的实体数据,解决它们的跨平台的可访问性和可发现性,就能解放很多人力出来。中国每一家金融机构都在用实习生和底层分析师做简单重复劳动,复制粘帖这些数据,这是迫切需要变一变的。

组织问题

但是在金融领域里变一变也不是那么容易。不光是在中国不容易,在美国也不容易。

要说在金融领域里没有人看到变革的需要也不对,比如振波二象君这样的有丰富一线经验的研究员,对技术发展的敏感性还是很高的。上次我们办“语义对话金融”研讨会,金融领域来了很多高、中、低各个层级的人士,大家对技术进步在价值判断、交易促成上的作用,乃至互联网投行的形成,都有极大的兴趣。

但是在具体的操作层面,依然是比较困难的。

相比互联网,传统金融是个偏保守的行业。互联网里那一套快速迭代、先小后大、逐步求精的打法,和金融机构的一些传统做法是不太匹配的。从数据到魔术,中间有很多步骤。但是作为一个大组织,或者高大上的组织,金融机构的决策者往往希望上来就有一个变魔术的系统,这是决策流程、项目立项过程决定的。所以面向特定机构服务,就很难bootstrap(步步为营),降低成本。最终这种项目往往因为无法迭代,从而无法降低成本而失败。

传统的市场、传统的机构,现在活得很好。中国券商的平均利润率是50%。很多券商连项目管理系统都没有,凭手工管理信息,用微信群做项目对接,已经活得很舒服了。他对通过技术改进工作效率,做以前不能做的事情,其实动力不是那么强。所以小券商反而比大券商更愿意尝试新的技术,因为他们相对而言危机感更强一些。

大的组织,内部各部门之间数据的整合也相当不容易。银行的基金部门、贷款部门、数据分析部门之间,有壁垒在那里,有中层干部的本位利益在那里,一些技术上看起来很容易的数据集成,在传统组织里推进异常困难。往往要plan for planning半年,各种报告来回博弈,数据流动都被组织摩擦掉了。

传统的渠道,比如A股市场,十年、二十年来,就那么几个行业,其实变化不是很大,投资标的比较少,很多时候常识、经验、人脉就可以做出决策了,对技术的要求反而不强烈。在新的行业,比如新三板和风险投资这边出现的大量的新兴高科技企业,传统的分析方法不灵了。以前大家都眼睛看着NASDAQ,分析都是对外的。现在人民币市场上出现大量的新问题,大家都在拆VIE,需要新的解决方案。但是在老的市场区段上、老的机构里,对这种变化感觉不强烈,或者轻视现在还看似不成熟的新动向(比如新三板),没有变革的紧迫感。

即将到来的军备竞赛

但是金融和所有其他领域一样,迟早要被互联网渗透,迟早要被人工智能渗透。现在我们靠经验、靠人脉来作出很多决策,不可能永远这样下去。经验、人脉,是我们在数据不足、分析能力低下的情况下不得不做的妥协。它们以后依然很重要,但是我们会越来越多地依靠机器的帮助。AlphaGo能超越围棋人类冠军。金融辅助判断工具超过最优秀的投资人还比较困难,但是不远的将来超过普通投资者还是可以做到的。意识到这一点的金融机构,还是越来越多的。

上面提到了推进金融智能化的一些技术和组织上的问题,但这并不是说,智能金融要在遥远的将来才能实现。其实不管是在Bridgewater还是Kensho,他们基础的算法都是很常见的,并没有太多神秘的东西。过去15年的语义网、互联数据、知识图谱的发展,也为我们准备了大量的底层数据、开源工具(如图数据库,检索引擎,NLP工具)。现在这个领域,到了一个tipping point(转折点)——如何把多种已经比较成熟的人工智能工具结合起来,具体来说就是知识提取、知识表示、知识存储和知识检索这几个不同的分支,按工程不同阶段的需要象绣花一样配合好,在应用场景上接地。

金融领域迟早会面临一场军备竞赛,一些敏感性高的组织会率先利用机器的力量提高自己获胜的概率,然后其他组织,主动地或者被动地,也不得不加入这场竞争。在竞争中各方会不断提升自己军备的数量和质量,直到用各种人工智能的方法把自己的业务人员武装到牙齿。这是金融领域的特色,和医疗、法律这些专业领域还不一样,就是它激烈的竞争性。医疗、法律也在被人工智能渗透,但我估计,他们不会出现金融领域将出现的这种军备竞赛。

这场军备竞赛,可能和历史上历次模式的变迁一样,也是新的渠道、组织、人员取代旧的渠道、组织、人员的过程。在现在弱小的、低端的渠道和市场上,在生存危机最强烈的那群人那里,“穷”则思变,率先走出变革的道路。先做苦逼的事、小规模的事、利润率很低的事,一步步走上去。你不能带着丝手套来发动革命。

发表评论