智能金融的发展路径

今天讲的是我最近一些思考的总结。也不能算是很系统的思考,主要还是想抛出一些问题来和大家探讨。之前也有几篇文章,今天说的算是这些的延展:

这些文章都在我们的博客上http://blog.memect.cn/?page_id=1317 其中一些想法在发表在程序员杂志的第8期,“知识图谱如何让智能金融变魔术”。

01

 

从事这份工作一年多时间了。从去年5月开始,我们就在实验如何把人工智能的各种方法用在金融上。这一年我们做了哪些事情呢? 我简单从两个方向回顾一下:市场与技术。

 

技术回顾

人工智能技术在市场上有很多切入点,所以最初我们是选择以新三板进行切入。因为无论是从数据量上、还是从决策对智能技术的支持的需求紧迫度上看,我们觉得在价值判断整个市场渠道里新三板这个市场最重要。所以我们花了将近一年的时间来构造基于价值判断的整个金融体系,并在此中造了十几个零件。

而我们现在做的这个就是基于理念把这些零件凑在一起,变成一辆车,也许是自行车,也可能是三轮车或者是小轿车。我相信在现在这个市场处于一种服务非常不充分的状态,任何一种工具,你只要能够抓住关键的切入点,都有可能造出一个在某个细分市场上被人用的工具。

所以下图差不多总结了我们近几个月来对智能金融深入的思考。因为在最早的时候,我们在追求变“魔术”这件事情,想达到颠覆性的效果。特别是在今年三月份AlphaGo出来之后,各种媒体新闻报道很多,然后就是智能投顾,大家都在说人工智能进入金融,分析师要失业了,机器要取代人的工作了。那个时候我们就在想,这件事情是可能的吗?特别是我们一回国的时候,就有人说你们应该去做Kensho,包括我们现在去见投资人的时候,投资人就强烈地建议说你们应该去做Kensho。

Kensho在我看来,就是这种变“魔术”的运用。但是冷静下来去思考这个市场上大家到底需要什么,或者说我们真正想达到那种变“魔术”状态,在之前需要做什么样的准备,只能通过真正看到具体的数据、看到具体的需求的问题。你会发现其实变“魔术”这件事情都不应该当作追求的目标,因为在变“魔术”的这个过程当中,实际上从最底下的物理世界的数据,到最上面的这种金融人才通过经验和人脉才能做出来的决策,中间有非常多的步骤。我觉得一个智能金融的企业不应该一步到位去追求变“魔术”,而在这个过程当中涉及的每一个路径、当中的每一个点有可能被商业化的地方,才是解决的目标。所以我把这个过程分成6个步骤。在这个过程中,每往上走一步都是数据不断完善,我们每得到一些更好的数据,就可以帮助我们更快更好地解决问题。

 

02

最底层的就是脏数据,脏数据打个比方来说就是证券时报上的信息披露板块,纯粹是为了满足证监会的要求。巨潮网就是解决这样的问题,但是因为PDF扫描件的存在,这样的问题并没有完全解决。

第二步就是干净的数据,比如说Wind、东方财富这些可以达到查询效果的数据终端,目前这是属于解决比较完好的问题。

再往下一步就是实体数据,实体与实体之间的联系,比如说公司之间的供应链关系,就是图谱数据。

然后再往上走就是业务逻辑,每一个金融从业人员都是有自己的世界观和方法论的,不管怎么选择,命名、关联、定义都是他的业务逻辑,那现在这些业务逻辑都是要每一个金融从业人员反反复复的用自己的工作经验做判断,如何让业务逻辑更好被表达,这就属于变魔术了,然而这也是需要继续探索的未知的东西。

03

 

分析层面也有6个层次:

第一个层次就是可访问性。参加新三板路演的投资人,想要了解公司的基本信息,但是那些数据终端都是基于B端的,稍微复杂一些的数据在手机端访问不了,而文因互联的搜索就是解决这样一个问题。

第二个层次就是可发现性。从纷繁芜杂的数据里找到少数真正有价值的数据必须要有工具帮忙过滤,提升可发现性,让投资人把精力放在最关心的事上。

第三个层次就是深度关系的发现。股转书里的风险提示,根本没有人可以把每天所有新闻过滤后对应到公司中,深度关系的发现就是找到那些人力根本看不出来、看不过来的关系(如事件风险、隐藏股权逻辑)。

下面两个层次分别是领域知识集成和业务知识集成。领域知识的集成是具体的业务场景的基础数据和领域知识的基础上表达业务逻辑,方便重用和学习。再有就是业务知识的集成,具体的业务场景的基础数据和领域知识的基础上表达业务逻辑,方便重用和学习。

到最后就是魔术,也就是策略的生成。有各种业务逻辑和规则,是不是能让机器帮助我们做出判断呢?机器把可以帮助我们简化问题,也可以把一个问答简化成一个选择题,也许可以帮助我们加快做选择题或问答题的速度,但是真正的策略最终一定是人去做。所以在这一点上,不仅仅是一个所谓的人工智能问题,在我看来也是一个人机交互问题,怎么能够让人更好地去发现策略、验证策略。

04

 

这是从技术的角度来说每一个层面都对应着不同的分支去解决这些问题,我在这里列了一个表,但我不打算把这个表里的每一个技术名词都解释一遍,因为如果要讲可能要讲四个星期。我们现在做的差不多都是前几个层次,后面一些还在尝试,因为构建这样一个系统其实是需要几十个人进行大量技术投入完成的,所以在有限的资源下我们先完成的是前面两个层次,也就是文因互联的金融搜索。

如下图所示,一个典型的文本处理引擎有以下模块。早在今年4月份我们做的就是文本处理引擎,通过预处理、过滤广告、格式编码结构篇章、各种各样细节的处理。然后再做各种浅层的语义分析,包括实体、名字、地名的句子的标注与段落的标准。然后下面呢,就是一个相对深层的分析。最后就是到应用层面,就是各种面向用户的应用工具的展示,包括语义检索、自动化报告等等。

 

05

 

但是一个完整的智能金融系统的核心,不仅仅是关于爬虫和自然语言处理,它包括了知识提取、知识表现、知识存储和知识检索这四大分支几十种细分技术的综合运用。

067

对上述技术,6月份的时候我们在北京知识图谱学习小组做了为期4周的简单科普介绍https://github.com/memect/kg-beijing/  。9月19日在西山宾馆,在中文信息学会知识图谱前沿技术讲习班,我和林德康老师会再做一次纲要性的介绍。

最近我在想我们做的这些所有关于智能金融的技术,这些很多提高效率的工具到底有什么价值?最后我们的COO孙洋想到了一句话——让金融狗们把更多的时间用来创造价值,不把宝贵的时间用在无谓的简单重复劳动上,让有效的生命延长。就算不用在创造价值上,每天多睡一小时,每天多谈一小时恋爱,干什么不(比当个机器人)好啊!

所以就是,用文因互联每天延长一个小时生命

文因搜索

针对买方(投资机构)

细分行业  ——  支持任意关键词,语义关联相关产品

多种板块  ——  轻松搜索A股、美股、早期项目

企业对标  ——  智能分析企业业务,自动寻找对标

针对卖方(企业)

基金偏好  ——  查看机构投资偏好

深度关系  ——  深度挖掘投资机构附属关系

07

在一次访问中我发现,一些券商从实习生到老总都在用文因互联的产品都在为他们节约时间创造价值。比如说董事长或者是高层明天去见客户需要有对方公司关于基本面、竞争对手、产业链的资料,但是没人可以在下班之前做到。现在有文因搜索就可以帮忙做到。像中层比如说做市部门,都需要这样的一个以知识图谱为基础的搜索产品去帮助他们在决策链条的点上创造价值。

产业链分析:

08

在产业链分析的一个小工具里输入任何一个关键词,可以在2万个细分领域里找到这个关键词上有哪些公司。比如说,以园林为作为例子输入关键词,得到一些园林的代表性公司。而且可以看到园林的上游公司主要为卖化肥、建材、石材的一些公司,那么下游呢,就是一些施工、景观、工程,还有污水处理的一些公司。在以前,要想生成这样的产业链分析,实际上是需要一个至少两年以上工作经验的分析师去阅读大量研报才能做出这种的效果。不管是产业链、对标还是供应链,都应该应用机器来部分地自动化这些工作。

文因快报 

关注动态变化 – 提取公告摘要

在审企业  ——  PDF解析股转书,每日推送上报企业

重大事项  ——  通过企业公告与新闻事件分析异常

其他各类细分主题,如人事变动、重大资产重组等等

09

这些市场动态变化的跟踪,就是我们的快报产品。这一块后来我们延伸出来了很多自动化分析报告的工作,比如异动分析报告就是在每天1000多份公告里找到哪些公告最值得关注。这里面有些领域规则是我们可以去定义的,这样就可以把每一个行业当中最值得关注的报告先给推送给需要看到的人。像下面这个SaaS行业周报就是一个典型,涵盖了SaaS行业在一周里发生了什么大事情,交易情况、定增情况、再融资情况等。这样一来,快报产品就是对那些券商内部做周报日报工作的人的解放,把大量基础信息给机器来做,对于那些机器做不了的工作,比如说投资亮点的分析就再让人去处理,这样至少可以让人力价值提高3-5倍。

10

11

 

股转书PPT摘要

12 13 14 15

这个股转PPT摘要也是来源自一个真实的案例,一位PE投资人马上要见竞争对手,就说你们能快速整理出这么一份要素分析PPT吗?我们一看差不多80%数据都已经有了,就非常快地把它生成了这么一个PPT报告,当时还没有自动化,现在这个已经全部自动化了。平台内一共有9000多份股转书PPT,每个公司有10个点左右的关键要素,其中包括产品、公司治理、生产资质、竞争对手、财务情况、关键风险提示、发展要点等等。当然不同的投资人会关注不同的点,但是这个东西的核心就是至少可以帮助投资人做投资,这样一份股转书PPT摘要可以帮助投资人节省将近一个小时的时间。

 

微信企业秀

企业秀也是类似的产品,我们的微信企业秀就是为企业高管和董秘服务的,就是将200多页的年报、半年报提取关键要素做成Html5页面,目前和两家新三板媒体公司做企业的推广营销。。

16、

上述这些尝试,还都是一些局部的、不系统的效率工具。下一步,我们打算针对特定的业务场景,提供更完备的解决方案。

 

17

我们从8月份开始就是要将这一系列的小工具、小零件在一些具体的业务产品上造成车。比如说投前研究、市场跟踪、投研分析、投后跟踪。还有其他一些跟银行有关的场景,比如说新兴业务的股权质押。这些都需要把我们刚才提到的这些工具有机的组合起来。有些时候看风险,有些时候看价值,有些时候看发展,那么怎么去把大家最需要的形式在一个业务场景上面综合在一起,就是我们当前做的最重要的一个东西。

上面是主要是谈谈技术的一个配置,还有包括我们产品。那下面呢,其实我觉得这块可能更有意思,那就是从市场宏观的角度,我们也做一个回顾

 

市场的回顾

过去一年,我们调研了上百个相关企业,走访了二三十家相关的企业。我们沙龙前后来过一百多位嘉宾,我们的邮件列表和微信群保持和几百名金融从业者的日常联系。我们前后写的正式调研报告有几百页。我们公开写的报告和博客也有几十篇(blog.memect.cn),其中一部分整理在《文因洞鉴》中,目前出了第1期,第2期和第3期(互联网投行专辑)下周就会出来。

在广泛占有第一手资料的基础上,我们得到了什么结论?

我得到的第一个感觉就是中国的股权投资市场其实是蛮落后的,不能适应新形势的发展。

传统的券商,只能服务两千家公司,现在勉强服务了一万家(加上新三板)。但是中国可考的创业企业就有二十多万家,主营业务规模在2000万以上的工业企业37万家,这50多万家企业传统的股权投资体系很难服务。无论是价值判断还是风险评估,如果还按旧的办法做,那要把人力扩充50倍才能完成,这是不可能的。所以随着中国经济的转型,随着中国投资结构从贷款和债权为主逐步转变为以股权为主,一定需要技术的投入才可能完成这个转变。能服务好50万家企业的投行,就是互联网投行。

帮助这50万家企业,未来也许有100万家企业,做好它们的价值判断和风险评估,和互联网投行这个潜在百万亿级的市场一起成长,就是文因互联的核心使命。

第二,不存在真正的美国对标企业。

投资人总是问我们你们的美国对标企业是什么?我不得不做了下面这个表。

18

 

其实我心里觉得,并没有哪个美国公司做的事情和我们是一样的。我也请教了很多国内的智能金融的先行者,大家在产品价值和商业价值上,都在进行探索,可以说没有哪一家得到了完整的答案。我一直有些困惑,直到一天因果树的滕放和我说,他觉得是因为我们的金融创新走到美国前面去了。我们根本没有先例可以抄。美国是有AlphaSense, Kensho, CapitalIQ,但是美国没有新三板,没有中小企业产业升级,没有区域金融结构调整,没有双创。美国对金融技术创新的需要,其实是不如中国迫切的。

其实就好像美国的铁路一样。美国有世界上最完备的铁路系统,但是它的高铁却是落后于中国的。因为它没有那种经济发展的需要去更新它的铁路系统。我觉得现在两国的金融革新也是类似的。中国在一些具体的技术点上可以抄美国,就好像我们高铁发展的早期一些具体的技术也要引进一样。但是在全局上,我们没有可以模仿的对标,必须进行长期艰苦的探索。但是我相信,中国这么大的经济体,中国智能金融这么广阔的发展空间,一定可以像中国的高铁一样,赶上并超越其他国家。

第三,不谈边界的智能金融,都是耍流氓。

3月份AlphaGo赢棋以来,一堆危言耸听的预言。我以为凡是谈人工智能将如何如何取代人类的新闻,但是不谈人工智能本身局限的,都是耍流氓。智能投顾取代不了投资顾问,自动写稿取代不了财经记者,正如ATM没有取代银行门店,计算器没有取代会计。现在的“智能投顾”,智能性还和“智能灯泡”里的“智能”差不多,其实威胁不了人。

现在的人工智能充其量只是作为智能助手存在。我们的生活中需要很多这样的助手,比如洗碗机、洗衣机、电饭煲。智能金融做好刑侦大队,不是去做法官,不是让机器来代替人做判断。

第四,智能金融之所以成立,是因为技术起到两个层面的推动力。      

第一层次:机器取代人力,降低成本。让原来无利可图的商业模式得以成立。

第二层次:用软件规范行为,标准化,透明化,从而扩大交易范围,提高交易速度,降低交易成本。

第五,智能中心是一个生态系统,是以智能技术和核心,做好价值判断和风险评估这两大类要素分析,从而支撑企业、投资方、中介方、监管方等做好资源配置。

国内现在在金融技术上过于重视风控,而且一谈风控就是反欺诈,这是不对的。其实如果我们的着眼点是服务中小企业,那光看风险是远远不够的。中小企业光看风险,全身上下都是风险,根本没法投资。所以要向前看,看企业的发展和价值。我们现在要落地,要服务银行贷款、发债等,但是长远看,一定是股权投资的比例成长快,空间大。要看价值,做价值投资。

 抓住价值,放开了看,有非常多的事情可以做:

 

19

那么,智能金融除了风控反欺诈以外到底还能服务哪些需求呢?智能金融除了能够服务传统金融终端如CapitalIQ能服务的需求,还能依靠智能化的分析工具进一步提高工作效率,所以智能金融不应该仅仅盯着反欺诈不放。

CORPORATE DEVELOPMENT 计划与执行

  •      Identify Deals 发现交易机会
  •      Conduct Valuations 估值
  •      Formulate Corporate Strategy 公司战略制定
  •      Monitor Markets 市场监控

SUPPLY CHAIN, CUSTOMER & BANKING 供应链,客户和银行

CREDIT RISK ANALYSIS 信用风险分析

  •      Select Counterparties 对标选择
  •      Understand Exposure 披露理解
  •      Monitor Credit Risk 风险监控
  •      Track Market Developments 市场动态跟踪

INVESTOR RELATIONS 投资者关系

  •      Monitor the Street 监控市场
  •      Analyze Competitors 分析竞争对手
  •      Identify Investors 发现投资者
  •      Prepare Board Presentations 准备董事会ppt

COMPETITIVE INTELLIGENCE 竞争情报

  •      Track Industry & Competitor Trends 跟踪产业和竞争趋势
  •      Uncover Opportunities 发现机会
  •      Gauge Wall Street Sentiment 衡量市场情绪
  •      Create C-Level Reports 写高管报告

 第六,不要言必称金融大数据。智能金融是小数据问题,智能数据(smart data)问题。

我从来不认为文因互联是个大数据公司。数据的深度比数据的量重要得多。仅仅是把大量的数据从网上收集来汇总,这能起到的价值并不大。我们关注的是小数据问题。大数据去中心化为小数据,并不只是规模变小,而是关注中心转移到新的三个V。

① value价值,不是连垃圾都存起来,而是特别关心数据的价值密度,提高投入产出比。

② veracity真实性,关心数据的可验证性,可用性,自描述性等。

③ versatile多能性,因为数据要用来交换,在交换中增值,所以要适应未知的应用。

 

小数据里当然大部分也是低价值的。其中被交换最多的那部分可称为smart data智能数据。它有三个特性:

①催化剂,它能加速价值的产生,在数据聚合中产生新的数据。例:人名实体链接。

②浓缩铀,它是大量知识和数据的提炼,是流动性好,摩擦力特别小的数据。例:产业链图谱。

③打折卡,是能降低成本,利用先验知识大幅提高价值的数据。例:基于领域模型的行业标签。

 

小数据的“小”也有三个方面:

①“小用户” 更多关心中小企业,个人用户,他预算很少,投入敏感,没有专家。

② 小工具,类似蒸汽机的改进其实在于各种小机械,重视工具系统建设,和现有数据的集成和演化,降低认知成本,学习成本。

③小周期,短周期演化,精益迭代,懒处理,减少数据处理的浪费。

 

小数据上的分析建模会很不一样,没有那么多训练样本。因为这里涉及知识,所以猫论和不争论也很重要。

①摸论,建模是一个在常识基础上的摸着石头过河。

②猫论是说不追求普适、客观的正确,只要在有限作用域可用就好。

③不争论是说要隔离世界观,保证每个人各行其是。

 

总结

智能金融还是个初生的领域,它不是互联网金融(Internet Finance),也不等同于金融科技(Fintech)。我认为它的英文应该是Smart Finance。它是用人工智能的方法,辅助人们进行金融领域价值判断和风险评估的方法。它通过标准化部分决策步骤,来降低成本,从而使传统不可能成立的商业模式得以成立。

智能金融并不神秘,也不神奇。它不是灵丹妙药,也不是凶神恶煞。它现在在一些小事情上帮助我们,让我们每天有效生命延长一小时(或更多)。在技术上,它也不是基于什么天上掉下来的秘密,而是过去十几年逐渐发展起来的一系列知识处理技术。我们要做的是看得大,但是做得小,利用好“小数据”技术。

20

大家看过《Moneyball》(点球成金)这个电影吗?新技术引入一个领域的时候,难免大多数人不相信,同样也难免很多人产生宗教迷信。我相信智能金融也是一样的。这是很长的旅程。Just do it。

嘉宾问答:

问:像互联网金融、金融大数据,还有之前提到的互联网投行。我觉得每个阶段都有具体要解决的矛盾。现在风控的需求更强盛,后面可能就是金融投顾,所以造成的影响就是盈利模式不明晰。所以核心问题就是,互联网投行模式是现阶段解决的问题吗?

答:基于现在的模式,银行会衍生出一些盈利点,比如中小企业股权质押、知识产权质押、投贷联动。但是无论面向现在,还是面向未来,新的模式的出现不是一夜就诞生出来,很多雏形有很多关键事件凝聚在一起才会让一个新的模式诞生。除了银行之外,还有大量规范后P2P、新三板、新四板,FA等凝聚在一起,才会诞生真正的互联网投行。现在具体的一些点本身也是可以盈利的。现在券商和银行已经和我们展开了有效的合作。

 

(责任编辑:严泽徐)

发表评论