人工智能对银行推动的展望

以下内容整理自鲍捷于2016年11月19日在第一财经和文因互联合办的《知识图谱与新金融》沙龙活动中的演讲。

圆桌讨论

一、银行是什么?

根据维基百科的定义,银行是以存款、贷款、电汇、储蓄等业务,承担信用中介的金融机构。

占据80%以上金融市场份额的银行,是中国整个市场体系绝对的主流。券商相比银行来说就小很多,VC则是相对更小的市场。起初我们设想从VC开始做,后来发现这个设想是错误的,所以就慢慢往前探索到银行这边来了。在这个过程中,我们也经历了很多思想的变迁,比如说银行到底是什么?刚开始接触银行业务的时候,我们仅仅从信贷的角度来思考银行,但越往后做越发现不能那么狭隘地去看这件事情。

在投行互联网化、银行投行化的两个大趋势下,技术给金融机构带来了很大的变迁。这个变迁并不是每一个人在第一时间都能体会到,或者说体会到了之后能够去实践,因为这中间确实有太多的颠覆式创新。所谓颠覆式创新,就必须经过一些坎。这件事情现在还没有做得很成功,就是因为这种颠覆性的创新需要庞大的基础工作。

唐朝贷款

谈及银行的历史,现代银行在美国发展了二百多年,在欧洲可能是四五百年发展起来的。但是银行这个事物古已有之,最早出现在两三千年前。在巴比伦时代就已经有了银行与投顾。上面这张图是在吐鲁番出土文物里面找到的,是唐朝时的一个信贷记录。我们可以看到那个时候已经有了年化利率、展期利率、T+0索回等。这些我们现在能想到的银行业务,一千多年前古人已经早就想到了,只不过他们缺乏我们现在的这些技术。在过去的半个世纪里,技术一直不断地推动着银行往前发展:一方面,技术提高了银行现有业务的效率;另一方面,技术在每一个十年里都会创造出以前根本无法想到的新业务。

技术对银行的推动

在计算机刚刚发明的50年代,没有人会预想到信用卡会在十年后应运而生。而放到今天,这些提高信贷效率、降低欺诈率的尝试,会不会给我们带来全新的东西?我想应该是的。但具体是什么?坦白说我也不知道,这可能就是技术的魅力。技术之所以是颠覆式的,是因为技术能够带给我们不可能想象到的新事物。

所谓“更快的马”的比喻,相信很多人听说过:福特在造车的时候,问大家需要什么,大家都说需要更快的马。最后的结果不是更快的马,而是一个叫“汽车”的全新事物。这样的逻辑在火车上也有体现,甚至火车比汽车在这方面更明显。因为火车并不是什么新事物,在有火车之前早就有了蒸汽机,也早就有了轨道。那时候,轨道上面跑的车,不是蒸汽推动的,而是马推动的。虽然现在我们觉得火车替代马车是很自然的事情,但回到一八二几年的时候,其实这是一个非常难以想象的事情。因为当时的火车不但不稳定,而且还没马跑得快。

所以,现在我们看到技术创新的时候也是一样的,最早的技术创新其实没有传统技术好。这也是为什么PayPal创始人在回顾PayPal诞生时说:只有我们能够创造出来PayPal,银行专业人士没有办法创造PayPal。这是因为银行的人没有办法跳出来,没有办法去承载银行系统原来不能承载的风险。这就是颠覆式创新本身的特点。再举个例子,比如说银行有不良贷款控制的KPI指标,比如说今年是2000万,现在用大数据手段,降到了1500万,是不是银行里每一个人都开心呢?不一定,比如说该部门明年的KPI指标可能就因此降到1500万了,他的压力反而更大了。在这种情况下,他反而没有动力去做技术的革新。所以技术创新,一定要在组织革新的基础之上。

风险与价值

那么我们今天可能也面临同样的情况,对银行业务的探索不能仅停留在不良贷款率控制上。我们要看得更长远一些,不良率对于银行来说是最重要的事情,对此大家都有不同的看法,那么银行是什么?

银行,是一个信用中介。实际上所有能够创造信用的部门,都是有可能会动银行奶酪的部门。可以这样说,全中国有3000家上市公司,就有3000家银行。互联网公司之所以成长到一定程度后都会尝试做支付,也是因为它们承载了信用。不管银行是主动还是被动,每一个承载了信用的机构都会与银行竞争。传统的银行是看风险的。风险是什么,是过去!更重要的是什么?是价值,是未来!这个对于我们现在做的中小企业服务更是尤为重要。银行能不能快速转变做价值判断,是决定银行能不能往前走的根本。所以银行不能只停留在自己的象限里,不然银行的敌人会从四面八方杀过来。

从大数据到智能

出处:杨凯生《商业银行的大数据建设及其在风险管理中的应用》,互联网金融12讲 p235

银行之所以现在能够来做一些智能化工作,不是凭空而生,是基于过去十年整个系统的进化。上图是工商银行的一个大数据基础架构,这个建设其实早在十年前就已经开始了。后来国内的一些其他的银行,也是参照类似的架构。我们今天提到的很多所谓大数据征信、大数据反欺诈,其实工行早就已经在做了。正是因为工行有了前期的这种大量数据的准备工作,今天才产生智能化的需求。

按照杨凯生行长的看法,中国的银行已经把前三步做得比较好了。

第一步:银行把内外部信息及内部多样系统的信息进行汇总,实现秒级的信息集成并生成每日报表。

第二步:是对数据进行分析,分析到底为什么会发生这种事情。例如一笔信贷发生变化,为什么会发生这个变化。分析后才能发现背后的因果关系,才能做出预测。所以我们所谓的大数据,在大部分情况下还是停留在第二个层面,而真正往前走还需要到预测。

按照杨行长的看法,到2016年为止,银行大数据在前面的三步中已达到比较成熟的程度了,后面两步才是刚刚起步,后面两步为什么“难做”呢?就是因为仅仅依靠传统统计的方法做大数据是不够的,必须用各种人工智能技术才能做好运营分析,快速秒级的实现一些规则的运行和提取。

第三步:动态,如何让这个事情发生形成一个闭环、形成一个反馈。这两块都需要做大量人工智能的投入才行。比如工行有上千万笔数的住房抵押,我们知道抵押时抵押物的管理很重要,但是工行是否能把这上千万栋房子的估值都过一遍?很显然人力是无法解决,必须用机器。所以工行开发了一套系统,运用自然语言处理和机器学习估计房子的价值和跟踪产权的变化。在这个上面才真正有可能去分析正在发生什么。我推荐大家去看看这本书《互联网金融12讲》,从不同的角度来分析大数据和人工智能对互联网金融的影响。

 

二、有限的人工智能

前面是从银行的角度来讲,接下来是介绍人工智能。一个所谓正常的产业成熟曲线图是:在一开始的产业成长期会有一个高峰,然后泡沫破灭,大家觉得这玩意是骗人的;再过两年,大家又发现其实也不全是骗人的,其中还是有一些合理性。

正常产业成熟曲线

但人工智能的曲线是完全不一样的。人工智能到现在为止经历了两次冬天,为什么?因为每过20年左右就有这么一个循环,大家一开始说人工智能要毁灭人类,然后过了几年发现不是这样。我在读博士期间,恰好经历了第二个“骗人”的低谷,所以我受伤非常深。昨天看到一个新闻,说百度已经开出80万年薪来招深度学习的博士。这是我当时完全无法想象的。在从业者的角度,其实并不希望这种事情发生。我们可以预言到在不远的未来,也许下一个“骗子”时期就会出现呢?

人工智能产业成熟曲线

现在,大家在谈人工智能时都有过高的预期,觉得人工智能可以解决很多问题,特别是在AlphaGo之后。这可能也是我们今天坐在这儿的原因。但是我们要清楚人工智能不是万能的。在我们谈到人工智能的时候,其实我们指的是不同的东西。比如,智能灯泡、智能音箱、智能汽车这三个中文里都是智能,但其实讲的是完全不一样的东西。

  • 第一个,智能灯泡是一种自动化,就是去完成一些人反反复复根本不用动脑子的重复劳动,这就是第一步自动化。
  • 第二个,智能音箱做的是杀马特,Smart,就是小聪明。它可以完成几个人一起完成的一个事情,比如数据集成,数据查找这样一些事情。
  • 第三个,智能汽车是一种更高级的智能,它可以进行预测,进行规划,进行一种洞察,需要长期的训练才能够拥有的这个智能,这也是我们所谓的Artificial intelligence(AI)。

智能是什么

在真正进行领域应用的时候,我们通常并不是真的需要一定要到AI这个层面上,Robot和Smart这两个层面其实已经可以帮助我们完成很多工作。

第一个层次:比如,现在在每一个金融机构里,都会有一大堆实习生从PDF报表里面提取数据。这样的事情为什么让人类来做?这完全是对我们进化的一种侮辱!我们应该用机器来做这件事情,这就是Robot层面的事情。其实智能投顾(robot advisor)就是套公式,如果我们还仅仅用Excel进行计算的话,也是对我们的侮辱!所以应该用机器(Robot)来做,这是第一个层次。

第二个层次:是Smart,是对数据进行简单分析,按照一定规则进行的过滤。美国 AlphaSense 这样的公司就是这样在做规则的提取。当前的人工智能在这方面已经做得比较好了。我们现在可以比较有信心地说,“人工智能可以把大部分实习生干掉”这件事情应该是没有问题的。两年到三年之后,人工智能是可以把数据分析师的大部分重复劳动取代掉。

第三个层次:是真正的资深的或者中高级层面才能用的洞察力。这样的洞察力不但能够发现事实,还可以解释这是什么,并且进一步做出预测。但是这种预测不是简单的像量化投资那样的预测。量化投资的预测是属于短期的一种,时间序列分析就可以完成的,并不会涉及到事物本质的因果关系。我们真正想达到智能化,就需要去了解它的因果性,这也是目前只有中高级的分析师才能达到的。Kensho想达到这种目标,其实也还没有达到。在其他领域,我们也可以看到像Watson这样的系统,证明我们现有技术已经可以达到,但是在任何一个具体的垂直领域应用时,我们还需要进行人才、数据和市场的准备。这个在中国,包括美国在内,准备都不够充分。这也就是为什么今天讨论的,是smart bank而不是intelligent bank(智能银行)。因为目前的产业还接受不了这个事物,或者说成本太高做不了。那么我们应该循序渐进地去做当下的历史阶段能够做的事情。

智能

人工智能不是万能的。我们大多数的时候被人叫做骗子,因为绝大多数人可以感知的信息都是机器不能够处理的,例如表情、情绪。很多事物机器是没有办法去感受,很多时候,我们在认知上的这种局限,决定了我们在决策时会掺杂许多情绪。特别是金融市场,这不是一个理性的市场。所以我们真正想做到金融决策,依靠目前的技术只能做到小众领域。我们把这一部分先做好,达到一个有限的目标。那么现在我们有机器学习、知识图谱以及一些现成的工具,我们把这一部分去加速现有数据处理效率的小事先做好,不是去做像AlphaGo那样让人分泌肾上腺素的那种事情。如果我们能做到供应链分析、对标分析、新闻事件分析这些小事,就已经可以节约大量的人力,可以说80%以上的人力都可以解放出来。

有限的人工智能

 

有限的目标

这些事情的底层我们用了很多的技术,包括我们刚才提到的知识图谱。其实,知识图谱不是一个技术,它是几十个细分领域的综合,涉及到知识提取的技术、知识表现的技术、知识存储的技术、知识检索的技术。每一个细分都有很多种。比如知识提取,会涉及到很多从自然语言、文本语言去进行表格、段落、句子的提取;再深一层就到实体的提取、关系的提取和规则的提取,有很多细分的技术。最终我们可以拿到一个结构化比较好的数据。随便举个例子,比如说对于表格的提取,我们知道在股转书、年报、季报里,或者评估报告里有大量的表格,我们不应该再用人力处理这些表格,而应该运用机器做财务表格、文本的提取。

 

表格提取

文本分析

比如说我们发现,客户经理的信贷测评报告中,是可以自动化提取一些内容的,比如这家公司是做什么的、属于哪个行业等。结合基金业协会的数据、股转书的数据,还有工商的数据,我们可以发现一个公司除了自己声明的股东之外,还有哪些隐藏的股东,可以通过推理挖掘出来,这是事件关联的分析。当某个地区发了一个文件,说房地产要做调控,那么到底会影响新三板上的哪些公司?这就涉及到我们要先建立一个行业逻辑,从一个事件到其对公司会产生的影响。更深入一点的,还可以解释到底为什么。中间逻辑链条,第一步、第二步、第三步为什么发生,这是事件关联的分析。

行业研究

 

这是针对行业研究做的一个分析,是我们银行项目的一部分。行业研究、企业研究这两块,是银行研究最关心的内容之一。行业研究涉及的问题有:这个行业有哪些公司?这个领域做什么?这个领域上游企业、下游企业是什么?这些产品之间的关系?比如,新三板上面有一万家公司在生产六万种产品,这六万种产品里面,有一千多个行业,每一种产品在哪一个行业。这种事情如果由人力来做,没有办法做,我们应该用机器人来做。举一个具体的例子,这也是银行委托我们做的一个作业。银行之前要找潜在的行业龙头企业是用各地的分支机构来做,做了好几个月时间才找到了200家潜在的行业龙头企业。随后通过和我们数据分析师交流,在我们数据库里面搜集了许多研报,研究员在评论一个行业的时候会有很多领头企业的描述——那么这种描述肯定有变化,但是通过自然语言处理,我们可以容忍这些变化——那么只花了几个小时就找到了400多家企业,比银行之前几个月做得都多。

我们通过自然语言处理的方法,可以大大地加速这个行业研究的过程。我们做完分析之后,要生成报告。这是我们早期做的一个公司的自动化报告。我们后来做了很多对比研究,我们委托了一个咨询公司,找他们的实习生来生成这样的报告,第一个月肯定做不出来这种报告的,一直培训了三个月,他们才可以做出这样的一份自动化的企业分析报告,大概要花一整天的时间,用机器来做的只要一秒钟的时间。

自动化企业分析报告

这个基础上衍生出来很多其他的需求,比如银行问能不能做自动化信贷报告。自动化信贷报告也分为两块,客户经理现场调查之后生成一个报告,风控经理拿到这个报告,也要生成一个风控报告。这两块其实都有大量的机械的劳动,都可以用机器来做的。这也是一个小的例子,这些报告里有一些数据加红,都是可以自动的去开发,不需要人再去做。

信贷报告

 

更快的马

我们今天看到了,从唐朝,到马拉的火车,再到蒸汽火车发明,实际上经历了技术在行业的推动的过程中,会经历很多的一个一个的坎。我们今天看到的这种自动化报告,自动化的信息分析与数据提取,其实并没有真正能够突破银行现有的业务,我觉得我们应该感兴趣的事情是这个省略号里面的东西。将来如果说银行能够往前走,人工智能可能带来的一些价值应该在这里。

发表评论