本文为文因互联 CEO 鲍捷博士于中国国际大数据产业博览会(以下简称数博会)智能金融发展分论坛所做演讲。数博会由贵州省金融办、贵阳市金融办指导,华创证券承办。
作者:
鲍捷博士,文因互联 CEO。拥有20年学术界和工业界的相关经验。美国Iowa State University人工智能博士,RPI博士后,MIT访问研究员,W3C OWL(Web本体语言)工作组成员,前三星美国研发中心研究员,三星问答系统SVoice第二代系统核心设计师。主要研究领域涵盖人工智能的诸多分支,包括机器学习、神经网络、数据挖掘、自然语言处理、形式推理、语义网和本体工程等,发表了70多篇领域内相关论文。是中文信息学会语言与知识计算专委会委员,中国计算机协会会刊编委,W3C顾问会员会代表。2010年以来关注金融智能化的研究和应用,成果有XBRL语义模型,基于知识图谱的基本面分析、金融问答引擎、财务报告自动化提取、自动化监管等。
以下为演讲全文:
鲍捷博士:大家好,我今天分享的主题是“智能金融系统的构建”。
2015年回国那会儿大家都在问我,是不是做互联网金融的,但最近一年半的时间更多谈人工智能和智能金融。这两者之间有关系的,我称为Fintech的上半场和下半场。
Fintech从强调“触达”的上半场走入了强调“重构”的下半场。
上半场互联网金融具备低成本、无边界触达的特点,使得金融服务的客户群体扩大至从前未获传统金融服务覆盖的群体,这也是互联网金融业迅速壮大的基础。但在此过程中流量转化是关键,简单的用户转移很难带来持久的发展。
相较于上半场强调金融业务旧模式的升级,下半场则强调技术的创新,不仅仅是对传统业务进行扩张,甚至也是对很多原来不存在的一些产品,一些不存在的业务。你会突然发现它已经可以开始做了。
从现在常在媒体看到的话题讲,涉及的核心技术包括人工智能、大数据和云计算等,主要产品和服务形式包括智能投研、智能投顾、大数据征信、电子货币等。但是智能金融带来的变化是远远不止上述环节的,它本质上对原有业务的重构,通过解构原有的业务流程,标准化和自动化其中的一些环节,从而创造出新的业务,甚至全新的商业模式。这个过程不仅仅是技术的革命,更是组织方式的变迁。
我们非常容易高估技术的短期价值,低估技术的长期价值,在人工智能方面就是特别明显的一件事情。
金融的声纳和摄像头在哪?
智能金融发展到今天,也是依托于金融业过去20多年在IT方面不懈的努力,分为四个阶段。
第三和第四阶段是智能金融包含的方式,自动化就是从繁琐到简单,智能化是画龙到点睛。
举一个不是金融的例子,但有借鉴意义。上海市有一个禁鸣政策,这个政策一直没有被执行。大量的车辆,人工太难检测了。两年前上海市政府开始探索,最近上线了一种系统,就是声纳禁鸣的检测系统。
这个技术其实以前用在战场找狙击手的,但是现在可以用于民用,只要汽车按了喇叭,马上就可以找到。据称,是在上线三天之内通过罚款收回了巨额的投资。
我们想一想,金融市场是不是也可以布满“声纳”和“摄像头”呢?现在金融市场上的文档非常多,浩如烟海。2017年这一年就有这么多文档:
所有都用人工来读没有办法做到。
我们之前和一些监管机构进行了合作,监管机构能够处理这些文档的人,一般不到100个人。用不到100个人的人力处理几十万份的文档,这显然是做不到的事情。
这个局面跟上海市的禁鸣政策一样,浩如烟海的数据使得目前人工没有办法来解决了。怎么办呢?用机器处理。
用机器处理大量的数据并不是现在才发展的,在美国十几年前就有了。
先讲一个新闻,说的是对冲基金的基金经理,如果能做更多的功课,就能赚更多的钱。
这个新闻的来源是美国莱斯大学的一项研究。这个研究是有数据的,它是说,如果你这个基金,每个月至少在美国的证监会SEC下载一份报告,那你下一个月超过平均收益率的,超额的收益率,如果年化之后,有1.5个点。对一个很大的资金量来说,1.5个点是非常非常多的钱。
这个新闻实际是讲什么呢?无外乎就是财报和公告。其中一个比较有意思的统计数字是这样的,有很多家机构都在从SEC自动下载文档,每月下载的中位数是4份。但是平均值高达672份,这说明什么问题?说明可能有少数几家机构下载了大量的文档。文章也透露说,这部分机构是用机器自动爬取的。
补充一个小背景,像美国的证监会SEC,它上面挂出来这些文档,是用一种机器可读的格式,叫XBRL的格式来表示的,就是说它直接给了你字段,每个字段对应文本,你就可以直接提取你关心的信息。
当然了,这个新闻里面也提到了说,它们根据分析ID地址,查到了头部机构的信息,比如说有文艺复兴公司,还有一些其他的对冲基金。而文艺复兴的CEO Robert和现在的CEO Peter在业内他们还有其他的身份,他们都是NLP的老炮。
现在这个结论已经呼之欲出了,他们就是自动地从证监会的网站上下了一些重要的文档,然后用机器自动阅读文档。
并不是说我们能够获取公开市场的数据对它进行理解就可以赚很多钱,对冲基金以及各种金融机构都有一些自己内部的数据,但是内部的数据大部分也是以文档的形式存在的,这其中的关键在于效率。
所以以偏概全地说,这件事情很核心的一个步骤,就是自动文档的理解。
如何让机器读懂文档信息?
金融这件事情,在以前我们更多是用人的知识,用人的经验在进行投资,但是现在信息大量地聚集和生产,这种模式恐怕不能再继续下去,如何及时获取文档、提炼核心信息、分析思考判断,可能越来越会由机器来执行。
核心是如何让机器读懂相关信息。一个资深的分析师、咨询师读报告没有问题,问题是如何让优秀高中生做这个事情,甚至如何让机器来做这个事情,这是不容易的。
坦白来讲,虽然人工智能在媒体上炒得很火热,在应用中更多遇到“人工智障”,如何进行利用,有大量的工作要做,有非常多的算法来集成,这不是一个有灵丹妙药的事情,其中有大量的工程。
这里面的核心技术,就是如何来机器来读“懂”这样一种技术。核心就是两大块:一块是自然语言处理,二是知识图谱技术。
今天不是一个面向技术的论坛,所以在具体的算法上不再多说,简单从原理层面上概述一下。机器来读报告和人读报告非常不一样,比如机器看到一幅画的时候,它看到并不是这个画里面的内容,我们人看到有物体、海滩、大海、树,机器看到是一大堆像素。
看报告是一样,比如年报上看到一张PDF有一财报,是一张表格,实际上机器看到的PDF并不是报告本身,而是一大堆面向打印机的打印指令,那个打印指令几乎丢掉所有语义信息,我们怎么样把它还原过来呢?就需要非常多的技术,这里不细说了。
其实最难的是里面这些的具体实践,“踩坑”的过程。
比如各种关系的识别、公司上下游的识别、人物关系的识别、产业链的识别、亲属关系的识别等等,在每一个具体的领域会有具体的应用。比如说审计、监管领域都会有相应不同的问题要解决。
每一个问题的解决,都需要综合应用自然语言处理各种不同的方法。包括深度学习的方法,包括规则的方法,包括人机交互的方法,所以我们在实践当中应用大量的方法综合。
文因互联现在最主要的工作,围绕着如何把金融报告、读懂金融报告自动化和智能化。由此衍生出几个方向:
一个是监管自动化,二是审计自动化,三是资管自动化,四是服务自动化,五是投研智能化。
这里面有一个当前的瓶颈问题,之前很多人工智能的实践是用机器学习来做应用,比如风控、营销。我们面临一个问题,传统的机器学习算法是在机构化数据上来做的,所以必须要有数据库和图谱。问题在于这个数据库和图谱在哪里来的?这就是“米”的问题,先有米,再有饭。
先把数据库和图谱做出来,然后再有自动化和智能化。
金融领域自动化解决方案
总的来说我们做的是金融数字世界里的“摄像头”和“声纳”。
在不同的领域,比如在自动化监管里面,我们做了一些尝试,以前几十万份、上百万份的公告都人工来读,来做摘要,是否合规,是否披露,都是由人工来做。现在我们做的尝试就是用机器来读,通过两年的时间有了比较正面的结果。我们现在对信息披露里报表的机器提取,已经可以做到接近人工提取的正确率。
甚至以后像“开罚单”的动作,例如监管机构发出的问询函和反馈意见,底稿可能是机器来做。
同样工作可以放到审计上,中国现在有23万个审计从业人员,审计有大量的时间,大概有20%左右的时间花在非常初步的报表复核的工作,非常繁琐。现在我们在探索自动化,也有了很好的结果。
以前只需要做上市公司的审计,现在一下子有新三板的审计,还有《会计师准则》和中外会计师准则的综合……如果我们靠人力增长来做可能是来不及的,恐怕我们需要借助机器来加速这个过程。
在资管领域也做了一些尝试。以前大量的工作都是人工来做,犯错误就是很可怕的事情,现在整个数据的录入、检查和规则的匹配、预警,都可以自动化或者半自动化,极大节省了人力。
我刚才提到了三个方面,还有很多领域,比如说银行、税务都可以用到类似的方法来进行自动化。
手工业思维 PK 大工业思维
回到我们刚才讲到的话题就是Fintech的下半场,在我看来主要是一个重构的过程。
这里讲一下重构到底是什么意思。按照我个人的理解,智能金融跟传统的互联网金融是非常不一样的,虽然从技术上讲都是一种新的技术,但是互联网金融是一种解决规模的问题,而这种智能金融更多的情况下是把很多东西拆了切碎了重新组合起来的事情。
传统的这种金融服务业,按我个人的理解,可以分为几大类,我把它们戏称为“农业”、“矿业”、“手工业”和“大工业”。
比如说传统投研,非常依赖个人的经验、个人的人脉,所以非常像一种手工业的行为,但是这件事情是不是永远像这样呢?中国现在不到5万个,券商里面不到1万个分析师,是不是扩展到10万人、20万个人,才能满足我们不断增长的业务需求呢?应该不是这样。
而大工业要做的,并不是说比手工业更好、更精致的产品。大工业很难做到这一点,大工业用可复制的技术建立一种协作,建立出有质量保证的产品出来,这就是所谓智能金融的在长期能带给我们的“重构”。
很多事情我们现在可能还无法完全预测到到底是什么,但是我们可以想象得到,当所有机构之间数据的交换,从企业、到中介机构、到监管机构、到投资者能够有非常快速的通道的时候,现在人工做的很多工作都可以自动化,监管自动化,审批和信贷等等都可以都可以自动化,这是非常有趣的事情。
当然这是非常长的工作,它很难通过一个复杂的系统一下做出来,可能有一个发展阶段,现在这个阶段还比较早期,现在整个市场的投入量和人才都非常少,整个人才市场大概不到几百人。现在比较成熟的应该是在零件和工具这个层面,完整的系统构造还没有完全做到,可能要多花几年时间。
要花一些时间把基础的标准件提出来,如何从复杂的文档当中把数据提取出来,如何进行数据的分析。比如说相信每个金融人士都有维护自己的Excel表格,以后能不能形成标准件呢?比如说财务标准,为什么要好多人来学呢,机器都可以做到。包括监管、审计很多领域都有这样,大工业核心其实就是标准件化。
文因互联致力于提供智能金融的标准件,部分展示如下:
如果大家对文因互联的标准件感兴趣,欢迎大家和商务小助手(微信 ID:weiyinba)联系。我们的使命就是帮助金融机构智能化,为金融机构赋能。
谢谢大家!
加入智能金融交流群:添加微信群小助手微信号 wenyinai42,附上姓名、所属机构、部门及职位,审核后小助手会邀请您入群。
发表回复