人工智能与投资价值判断

文/鲍捷,段清华

本次“人工智能与投资价值判断”讲座由中央财经大学德育示范基地——学术后援服务中心、保险学院团总支,保险理论研究协会共同举办。文因互联CEO鲍捷博士应保险学院风险管理与保险系陈华副教授邀请,在本次讲座中担任主讲嘉宾。
2015年在新三板上市的企业超过3500家,比整个主板的上市公司数量都要多。在新三板高速发展的同时,文因互联(Memect,2013年成立于美国硅谷)也随着它的创始团队回到了中国,希望用他们从美国学术界带回来的顶尖人工智能技术,帮助中国的投资人更好地做价值判断。

人工智能辅助价值判断的四个层次

第一层:基础数据
文因互联产品的最底层构架是建立在基础数据之上的,包括所有上市公司公开信息在内的基础数据。文因互联计划逐步地公开开放这些数据。
XBRL(eXtensible Business Reporting Language)是一种电子化、结构化的财务信息标准。在过去的十几年中,美国证券交易委员会(Securities and Exchange Commission,SEC),英国皇家税收与关税局(HM Revenue and Customs,HMRC)都开始要求公司必须使用XBRL披露财务数据。以美国为例,这些格式化的数据,任何人都可以从SEC的网站上自由下载与使用。比如有的公司就会监视这些XBRL文件,只要从SEC的网站上一出现,根据分析结果,在两秒之内就生成交易建议推送给它的客户。

与之相比,中国已于2008年11月12日成立了XBRL中国地区组织,也建立了上市公司的XBRL申报制度,但还在非常初级的水平。在中国,一般人难以接触到XBRL,它还停留在大公司与政府部门手中。

而这部分应该公开的数据,没有真正地开放出来,这极大阻碍了中国金融服务业的自由发展。在大部分投资机构中,很多金融实习生,还必须把非格式化的PDF文档包括公司报表、研报等等,整理为Excel、PPT等其他格式,这种机械的“脑力体力劳动”在当前时代是必须革除的。

文因互联预计在数据整理完成之后,面向所有中国的投资机构、个人,免费地开放格式化的基础数据,并且提供方便访问的API,让任何人都可以便捷地访问到这些数据。除了XBRL承载的会计数据,文因互联提供的数据还将包括一些非标准的报表数据。
第二层:深度图谱关系
知识图谱这个词大家可能很陌生,其实它是人工智能最重要的领域之一。与谷歌团队击败李世石所使用的深度学习算法相比,知识图谱所使用的语义化技术,自然语言相关技术,在整个人工智能领域都有更深层次的应用和前景。现在的谷歌搜索,iPhone上的Siri,IBM的智能问答系统Watson,背后都应用了知识图谱技术。
在投资数据上,我们可以用知识图谱技术清晰地处理关于公司、股东、产业之间的关系。公司和公司,公司和人,公司和行业等等一切内在关系都可以在知识图谱上展示、查询、搜索。因为我们已经建立了实体之间的联系,我们就可以很容易地挖掘出企业的深度关系。
第三层:业务场景应用
构建出知识图谱只是更多应用的前提,是平台的基础。如同先有iOS平台才有其上百万的应用一样,在知识图谱这个平台上,我们可以构建出非常广泛的应用。
例如定增(定向增发),我们可以挖掘定增后面的原因。之前我们遇到一个例子:有家公司在去年以1块钱的低价,定增了大量股份给公司外部的人,后来才发现这是它被外部收购的前兆。只要我们通过知识图谱处理好公司与高管、公司与定增之间的关系,这种信息就可以很容易地在知识图谱中被挖掘出来。
还比如怎么寻找并购标的、怎么进行资产管理、如何进行企业征信、如何构建完善的企业画像,这些都可以在知识图谱上做。
第四层:智能助手
智能助手涉及到更高级别的人工智能应用。这方面包括关于金融的领域问答、投资顾问、情报分析,甚至全球市场范围内的信息预警、舆情监控。

在美国有家名为Kensho的公司,在2014年拿到了1000万美元的种子轮投资,Kensho的目标之一就是回答类似 “当油价高于100美元一桶时,中东政局动荡会对能源公司的股价产生怎样的影响?”,“朝鲜核试验后 48 小时内韩国公司三星的股价变化”这样的问题,这就属于情报分析,信息预警的智能应用。Kensho这种预警只是智能助手的一种可能性。在知识图谱的基础上,我们可以开发出更多的智能助手在金融领域的应用。

机器如何扩展我们的智力?

在1804年的时候,人类发明了蒸汽机车,在最早的时候它的时速只有5公里,用煤炭或木柴做燃料。这个速度远远比马车要慢,所以如果在当时,有人告诉你有一天火车会完全代替马车,那是不可想象的。像这种技术的阶跃现在也正在发生,这就是人工智能领域。人工智能会影响及代替一部分人的工作,然后它会创造出更多的工作,就好像虽然我们现在没有了马车夫,但是火车相关的职位实际要多得多。人工智能的这次阶跃,重要的是扩展我们的智力,让我们从“脑力体力劳动”的苦海中脱离出来,让人能去做更有创造力的工作,而不是那些简单重复的工作。

人工智能解放人类的第一点,就是解放“脑力体力劳动”,这方面包括但不局限于那些金融领域初级员工的工作。其中是包括大量Copy & Paste(复制和粘贴)工作的。新三板企业上市所需要的公开转让说明书平均超过250页,而这样的文件超过7000份,人类几乎不可能大海捞针的从中简单获取到我们想要的信息。而这还不包括其他信息,例如研报,新闻,公告等等。现在从事基础研究的金融从业员工,每天面对大量这样的文件。人工智能可以自动地将文本信息抽取、结构化,甚至进行分析,从而大大节省金融研究人员的时间成本。

人类的能力是有限的,据我们在业内的调查,一个复杂的金融关系图表,一个实习生平均一天可以做两张,一个熟练的研究员一天只能收集30条数据。而人工智能的目标是,在洞察力上达到人的水平,却能成百上千倍的并行工作,达到人远远达不到的超人规模。大家可以想象,如果我们能以更低的成本和更高的速度完成这些基本的工作,那将会带来多大的价值。

人和人之间的信息交流速度是极其缓慢的,如果我们将人与人之间的对话、文字的阅读,这些数据量化,那么实际上只能达到每秒几比特的信息量(bits/sec)。而我们知道就算是放在20年前,电话拨号上网的时代,电脑也能以每秒几千、几万比特的速度进行通信。
一个比较现实的例子是,假设我们不依赖任何外物包括手机纸笔,那么我们能记住多少电话、QQ、微信号码?然后我们有了纸笔,我们就扩展了这部分能力。现在又有了智能手机,我们可以记住成千上万人的联系方式,这就是机器对人的智力进行扩展的一方面。人类终将拥有扩展的海马(脑中的记忆单元),机器承载的第二记忆,世界的记忆终将在机器的帮助下互联。

在金融领域中,往往一个研究员在一个很长的时间里都在进行仅仅针对某个特定领域的研究,为什么会有这种局限性?很简单,是因为人类的记忆力和信息处理能力是有限的。我们无法处理太多的信息,我们接收、处理信息的速度远远比机器慢。机器的教育成本很低,复制成本很低,机器将辅助人构成社会,帮助我们扩展进化中获得的有限的认知能力。这种人和机器混合构成的社会,被成为Social Machine。这并不是科幻,是已经发生的事情——想想人们多么依赖手机。

挑战与机遇

在人工智能发展的过程中,很多职业都会被影响。这其中可能包括分析师、投资经理、交易员、财务顾问等等。他们的工作都会从大量的重复劳动,变为其他的更有创造性的劳动,帮企业创造更多的价值。
而从区段上说,现在人工智能已经在影响早期投资、场外交易、上市公司的再融资及公司的并购,在以后会逐渐向二级市场等等外围扩充。从问题的角度说,最先解决的可能是标的的选择、行业分析、快速价值判断及规模交易等等。在人工智能影响金融的过程中,可能有一些职业会消亡,但是会有更多的职业,更多的产业与价值被挖掘出来,这就是未来的机遇。
640
人工智能是一个很大的门类,包含很多不同的子科学与学派,现在众所周知的深度学习技术,实际上就是人工智能中的统计与机器学习学派在近些年兴起的一种新算法。
人工的不同学派在金融领域都有不同的用武之地,例如:
统计与机器学习:
行情预测(Rebellion Research)
交易学习(Alpaca Trading Co.)
对冲算法(Castilium,Bridgewater)
机器人投资顾问(规划,组合,执行)
自然语言处理:
 事件分析(Kensho)
 量化交易(Sentient)
 机器人新闻(Yseop,Automated Insights,DreamWriter)

语义与知识:

 信用监控(Garlik)
 数据集成(摩根大通)
► 风控(宜信,普惠金融)
 财务建模(富国银行)
 财务报表自动化(XBRL及相关技术)
 语义搜索(FIBO工作组)
人工智能的应用已经在各个领域上都有了很多应用,一般人可能很难体会到它的存在,实际上技术正在不断地改变着我们的生活。

技术阶跃面临的困难

在火车比马车还慢的时代,没人需要火车,如果你问一个人需要什么样的交通工具,他们会说需要更快的马车而不是火车,因为他们无法想象到火车的便利。
火车的发展并不是一帆风顺的,实际上在通信还很落后的时代,为了保证火车之间不会相撞,是有一匹马跑在火车前面随时侦查的。而今天火车的成功,是因为大量配套设施的完善,例如铁轨、更先进的燃料、更方便的信号传递及更好的计时系统等等。
回到人工智能的话题,现在人工智能也面临着很多问题。现在人更相信人而不是机器。机器确实会犯错,但是从大概率的角度说,一个设计良好的机器犯错的概率远远比人低,并且可以预测机器会更稳定,不受任何外界情绪和感情的影响。机器解决问题需要的成本也远远比人低。
机器开始会显得很愚蠢,只能接收人类的指挥。但是这个过程会随着数据逐渐增加,技术不断进步,机器速度会越来越快而最终解决,最后机器会成为超越人类的智能助理。就如同火车需要铁轨,人工智能的发展也需要大量的配套基础设施,例如更多的公开数据,更好的数据互联等等。
人工智能要完成技术的阶跃,同样不会是一帆风顺的。在这个过程中需要面临很多问题,很可能等很多基础设施完善之后,它才能真正开始改变世界,改变我们的认知。我们相信,这一天迟早要到来,而文因互联正在做的,就是在加速这个过程,让我们的生活更好。

阶跃发生所需的背景

技术背景:
► 报表的电子化、结构化
► 大规模文本分析技术
► 开放数据,数据互联
► 知识图谱

就像SEC推行XBRL一样,最开始肯定是数据的电子化、结构化,现在中国政府也在大力推行尽职调查的电子化、结构化,这一条是人工智能技术在投资领域发展的基本要求。
结构化数据的过程中,会需要大规模的文本分析技术,其中包括自然语言理解、报表分析、数据校验等技术,最终的目的是将文本转变为机器可以读取的格式化数据。这些技术在近年已经逐步成熟,工程的可实现性已经被验证了。
基础数据应该是开放的、互联的,只有这样才能为知识图谱的建立做好准备。到最后数据完全图谱化,让数据搜索、分析、整理的成本都降到最低。在这时人工智能的各种应用会不断的浮现,逐渐创造出一个千亿甚至万亿的产业。
金融业背景:
► 互联网化
► 量化(交易、风投)
在中国,金融业还是一个很传统的行业,有大量的数据没有联网,没有结构化。而阶跃所需要的条件之一,就是金融业能整体的互联网化、量化。而恰恰这是在过去十年中被证明有效的。

中国背景:

► 投资供需失配
► 直接投资比例应提高
► 人民币基金兴起
► 注册制,新三板
► 大量新行业缺少分析
► 后期融资和上市公司投资服务不足

人工智能要在中国金融领域扎根,离不开中国的背景。中国的大背景就是金融业的不断发展与改革,投资供给增加,投资市场化。上面提到的一些是现在正在不断演进的过程,一些是正在面临的问题。这些问题也同时带来了巨大的机会,很多在美国上世纪70年代就已经没有的机会,现在在中国则出现了。

但是这些问题的解决,仅仅用旧的方法是不行的。问题的规模远远大于过去我们熟悉的问题。传统的投行体制、传统的工作流程都很难应对新的挑战。过去几年,我们已经看到大量的模式创新,在早期股权投资、新三板投资上迅速成长起新的投资机构。今后,我们预期不仅需要模式创新,也需要技术创新来解决这些问题。如果没有新技术的介入,没有生产力的提高,这些问题是不会自我解决的。只有用人工智能真正的解放金融业的生产力,才能改善生产关系,才能更好、更快地解决这些问题。

可能的趋势

投资从“大数据”走向“智能数据”
数据绝对量是否大并不重要,实际上对于人来讲,大于“7”的数据都是大数据,因为我们的短期记忆无法记住超过“7”的信息。只有经过机器智能化的处理成为深度数据,发现人力无法洞察的关系,才能真正的帮助投资。

互联网投行的兴起

投行的互联网化,将从依赖人的“作坊”走向依赖系统的平台。在这个平台上有大量的公开数据,可以直接通过这个平台查询、搜索信息,甚至完成交易。

从机器辅助价值判断走向规模交易

走向规模交易,就如同兴起期权交易的“淘宝”,根据智能数据的投资,都在一个平台上就能完成,极大的节省了人力物力。

新三板上成长起中国的“高盛”

新三板和可能被实施的注册制,将有助于产生更好的投融资平台。新三板的整体的体量可能会翻数倍、甚至数十倍,在这个过程中很可能会出现中国的“高盛”。
文因互联的基础技术

首先我们获取到一些非格式化的公开数据,这些往往都是文本数据。然后我们对这些数据进行格式化,编码化、数据清晰。对文本结构、文章和页面进行分析。在这个过程中,会有中文分词、句子标注、词汇分类,最终提取出不同的实体。这些实体包括人、组织、机构、时间、金额等等信息。最终这些信息经过校验、异常处理、数据标准化等等步骤,合并成为知识图谱。

通过知识图谱,我们可以发现很多深度的投资关系。例如:
► 企业是否间接被主板企业控股?
► 企业的实际控制人是否还有其他未上市公司没有披露出来,它们的业绩怎么样? 
► 企业在全球市场上有多少竞争对手和相似企业?
► 企业的整体产业链结构都是什么样的,整个产业链都被控制在哪些公司,或者哪些人手中?

这些问题都可以通过知识图谱在实体间进行推理、语义搜索得到。而通过语义技术,我们可以做到:

► 通过任意关键字全方位的搜索企业、研报、人与人的关系;
► 行业的检索,产品的检索,解决目前行业不准确,新型行业无法分类的问题;
► 深度挖掘与提取各种信息,从大量文本中生成关键信息。

现在流行“互联网+”的概念,也有人提到“人工智能+”,然而当它们再次与金融投资携手,能迸发出什么样的火花?让我们一起期待吧。

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注