实事求是谈金融报告自动化

（本文根据作者在某咨询公司的讲座整理）

三个迷信

在讲具体的技术之前，我想先说说关于人工智能的三个迷信。

第一个迷信，因为AlphaGo 战胜了围棋冠军，所以 AI 也可以做 XYZ（比如炒股）。可事实是，AlphaGo 只是 AI 的极小的一个分支。AI 总体还是处于“有多少人工就有多少智能”的水平。

第二个迷信，因为机器效率高，所以效率低的人会被机器消灭掉。我一开始也是这样想的，但是后来我发现并不是这样的。比如说计算器，计算器做加减乘除是比所有的人做得效率都高的。但会计并没有因为计算器而失业。恰恰相反，现在这个时刻，可能是人类历史上会计最多的一个时刻，未来还有可能更多。能被机器取代的，是完全的机械工作，就像工厂里的机器人那种工作，月工资2000块钱以下的那种工作。大多数的工作还是需要创造力的，至少需要有一部分的创造力。当机器提高了工作效率之后，实际上是使得拥有这种技能的人反而被增强了，而不是被替代了。所以在我看来，分析师肯定不会被机器替代掉，而是随着机器能力的上升，分析师的人数将来会越来越多。

第三个迷信，即人工智能应用就要搞深度学习。我前两天去拜访一个客户的时候，他们问我人工智能是什么？怎么能够应用到金融分析？我给他看了一堆列表，他看完了之后，觉得这不是人工智能，因为据他所知人工智能就是深度学习。甚至很多人会把关系颠倒过来，认为机器学习是深度学习的一个分支。可能最近两年里面，在媒体里到处都是这样的报道，所以产生这样的误解。但是在人工智能的几个学派里面，神经网络只是其中的一个学派，我们称为连接主义学派。深度学习又只是连接主义学派当中的一个细小的分支。任何一个项目通常都不是一种算法能够完成的，而是很多种算法集合在一起才能做成的。人工智能有4个不同的主义，其中一个是连接主义的神经网络；再有一个是理性主义，就是逻辑的那一套；还有经验主义，是机器学习那一套；但这些主义，都没有最后一个主义厉害，我管它叫媒体主义，媒体说的AI其实是我们根本还做不到的。

金融报告是什么

言归正传，回到今天我们的主题——金融报告能不能自动化以及怎么自动化。首先要确认有哪些东西可以称为金融报告。

第一种是信息披露报告，有股转书，有做债的报告，有贷款的报告。新三板、A股、美股都有招股说明书、股转书，这是信息披露类型的报告。还有年报、季报等等，全球每年有几百万份。

第二种就是研究报告，基于这些公开的材料，我们再做一些加工，有卖方的券商的报告，有买方的基金的报告，还有中介机构、咨询公司的报告。

第三种报告，我称为摘要型的报告。在各个大的券商，微信群里面，每天都会发，比如说分行业、计算机行业、汽车行业，发生了很多事情，做一个每天的摘要这样一个报告。巨潮网每天也都会发，早上发、中午发、晚上发，重要公告列表，这是一种公告摘要。还有一种是日常的跟踪报告，有按天的、有按小时的，有按月的、按周的，报盘的新闻，在很多的财经媒体上，这种股票走势、大盘走势，这种行为都是机器人写的。再有一种就是企业的信息图、基本要素的分析，很多刚入行的分析师、实习生，每天都在写这种东西，把这个企业拿过来看一下，基本亮点是什么，股转书里面弄一个PPT出来，写这种东西。

最后一种，我把它称为陈述性的文章。我把所有前面不能够囊括的东西都归在这个里面了，各种各样的新闻，背景介绍、公司介绍、行业介绍，或者介绍一个新公司。比如，做锂电池的，锂电池是什么？等等信息。然后深度进行观点分析，我认为这件事情是什么样的，展开讲述。最后就是八卦，比如“金融八卦女”。像八卦这个东西，机器人肯定替代不了。

前面这些东西，哪些是机器可以取代的，这就是我们今天要讨论的话题。

人 vs 机器

分析师和记者会失业吗？如果要有一个简短的回答就是：NO。当然，实际情况并不是这么简单，因为分析师和记者，他们做的事情可以分为很多维度，有些维度的的确确是机器可以去做的。

分析师和记者到底在做什么事情？我们把东西整个抽象起来就是三步，第一步信息获取，第二步信息加工，第三步发布出去。举一个例子，对一个企业做一个分析，我们通过某种渠道来找到这个信息的发源地，可能是股转书，或者是公司的路演材料等等，我们进行分析，这是案头的工作，还有一种是非案头的工作，打电话跟董事长聊，去见他的董秘跟他聊，然后自己做分析达到一个结果，这是一个一般的流程。这里面肯定有一部分工作是机器目前还没有办法做的，比如说尽职调查这个过程，打电话的过程。机器能先在案头工作这一部分提高我们的效率。但最关键的东西就是 Insights，是机器人不能做的。人为什么能够做好这件事情？因为我们能够有 Insights，有洞察，人能够发现事情背后的一些联系，这是之所以需要人类分析师的原因。

2017-02-21_艾瑞-8

我们对比来看，人的报告和机器的报告。

第一点，人的报告的优点是语言流畅。当然也不是绝对的，我看过一个股转书里面有大量的语法错误，所以被股转中心给打回来了。但总的来说，人的语言比机器的语言是要流畅很多的。

第二点，内容相对来讲比较丰富。因为机器能做的还很有限，它输入的是什么，说出的就是什么。人可以发现很多种不同的相关的因素。比如说像我们最近在看某咨询机构的报告，假如只是从内容的角度来看，50页纸的报告里，我们评估下来，应该是90%以上的内容是机器没有办法生成的，这可能让大家（分析师们）更加放心一点。就是说如果仅仅只是从内容本身以及公开材料的获取的角度来说，机器现在还没有办法替代人在内容组织上的优势。

第三个，人有丰富的Insights。我们人不仅可以发现 Insights，还可以关联 Insights。

机器的优点在哪里？快，非常非常快，一天24小时可以不间断地工作，一秒钟就会做出一个报告，这是人做不到的事情。内容，它也可以相对集中。人无法收集到太多信息，但是机器可以几万份报告全部扒过来，然后从里面挑东西。简单的分析罗列，在量上面，机器可以做得更好。

背后的技术

2017-02-21_艾瑞-9

如果用机器来做，涉及到哪些技术？我们把它大概分成三部分内容。

输入的时候是一些原始数据。这些原始数据有些是结构化数据，但我们现在面临更大量的是非结构化的数据，各种各样的文本。我们会进行自然语言理解（Nature Language Understanding），生成相对而言结构化的数据。这个结构化的数据，跟大家数据库用到的结构化数据不是完全一样的。因为如果我们想把数据完全去归约成结构化的数据，比如把一个公司的财报全部变成数据库的模式，成本是非常高的。我们在每一步处理都会犯很多错误，为了纠正这些错误，会需要大量的工程性投入。通常我们为了降低工程成本，在结构化的时候，会满足一定终止条件，比如到某个力度不往下分了，比如说段落，会停留在这里，这个段落会打标签，这些标签又是结构化的数据。通常这里的结构化数据是根据我们在这个场景下面的预算来决定的。

有了结构化数据之后，我们重新把它变成人容易理解的语言，这个过程叫自然语言生成（Nature Language Generation）。从数据变成文本，还有另外一种就是从数据变成图像，图形可视化。大家天天都在用 Excel，或者其他的东西来进行可视化。把这些文字和这些图表结合在一起，就会形成一篇文章，这是一般的流程。

2017-02-21_艾瑞-10

我们先看第一步的非常简化的一个示意，我们输入各种数据，有PDF的、XBRL的半结构化金融报表，EXCEL的、WORD的拿过来进行分析。得到了相对而言干净的数据。什么叫干净？这个干净与否，主要是对机器而言，那些机器很难处理的数据，我们通常把它称为脏数据，机器相对而言比较容易处理的数据，我们称为干净数据。我对股转书比较熟悉，对新三板的股转书，里面有7%的股转书是扫描件，这种扫描件，我们把它称为脏数据。我们要花巨大的精力来做数据清洗工作。还有大量的重复，比如说券商的报告。券商去年发布了18万份报告，其中大量是重复的东西，他们的晨报，在每个平台都发一遍。所以我们要做去重工作。还有就是数据排序，按照各种各样数据的质量、重要性来探寻。

做完数据清洗，这最难的一步，可能80%的工作就做完了。下一步，就是进一步去做结构化的提升。主要就是实体的发现和关系的发现。什么是实体？公司、人、产品，每个东西都是一个实体（Entity）。实体和实体之间是有关系的，万事万物之间都有关系，最后构成了一个图（Graph）。这是一个基本的过程。

自然语言生成有三种常见方法。一种是基于模板的方法，是非常简单的方法。可以说它不需要太高深的技术，非常多的机构都已经在用了。可能大家没有注意到，很多财经媒体在好几年之前，就已经在用模板，做报盘数据、跟踪的报告。这几年基于模板的方法得到了长足的进步，因为以前用人来写模板，只能写几十个模板、几百个模板，所以那个句子一眼就看得出来，就那么几种编写。现在大家可以用机器学习来生成这些模板，通过学习海量的已有文档，发现以前人是怎么描述这些事，机器生成成千上万的模板，所以现在的句子就写得越来越好看。

下一种方法是基于知识图谱的方法，比上面一种稍微进步一点。前面这种一般是填表，基于知识图谱相对而言要复杂一点，要做一个推理而不是直接的句子、直接的词和词，数字到数字的过程。下面给了个例子，比如说这是从两个不同的数据源来，一个数据源说，这个公司的主营业务是汽车的涂料生产。第二个数据源说，汽车的销售量在下降。在这个过程中，我们要做一个推理，汽车销量下降，意味着汽车涂料也可能会下降，有可能这个公司的主营业务会下降。但这个逻辑不是100%的，只是说存在这样一个推理途径，我们可以推理出来，这个事情还没有发生。机器是可以写出这样的话，是因为背后我们有推理机。

第三种方法是机器学习。现在的方法，不仅仅局限于学习模板，很多时候是直接把句子拿过来用，往大了说，现在有很多机器学习和深度学习的问答系统。输出一个问题，回答一个这样的句子，这些句子并不是机器生成的，而是机器从浩如烟海的人类文档里面把它提取出来。这种方法的前提是什么？是要有海量的数据。所以这种方法一般只适用于Web头部的搜索，一些细分的领域是没有办法去做的。

我们现在正在做公告摘要，是报告的其中一个模块。之所以提出来，是因为它是两种不同方法的混合。我在一开始的时候也提到了，人工智能方法不止一种。我们通常是用多种方法进行混合来解决问题的。在这里，我们综合运用深度学习的方法和知识图谱的方法。我们会在公告的处理上，首先用深度学习来进行句子层面的解析，全面训练句子并打标签，这是用深度学习的方法来做的。有了这些句子层面的数据和所谓的元数据之后，我们在知识图谱上面进行一个标注，因为所有的标签背后都是有关系的。这个关系就是知识图谱，最终基于此我们来生成公告摘要。之后我会给一些例子。

知识图谱

2017-02-21_艾瑞-15

接下来具体讲一下知识图谱。知识图谱用一句话来说就是图谱，即图（Graph）。在座每一位都学过如何画画，就知道知识图谱是什么了。困难在哪里？人画图和让机器来理解图是不一样的。让机器去存储几张图和让机器去存储几万张、几千万张图，也是不一样的。所以在工程上，我们仅仅为了解决图的提取、表达、存储、检索这几件事情，就不得不发明一整套的方法来做。知识图谱技术，并不是从天上掉下来的，实际上它是基于过去二三十年时间，几个不同的细分领域的发展。后来，大概在五年之前，它们交汇在一起，所以我们给它一个新的名字叫知识图谱。它大概有4个不同的分支：

第一个分支是从传统的自然语言处理发展来，叫做知识提取。它主要研究如何从各种各样的文本里，把知识的结构发现出来。

第二块叫知识表现。研究怎么让机器更好的表达图谱。我们有一个任务叫做推理。推理在数学上严格的表述，实际上是当图上面有一些边之后，如何发现新的边，这个过程就是推理。推理有非常多的变种，但是你把它抽象了看，其实就是在讲图上推导边。怎么去做这种推理，怎么去做这种图在计算机里的表示，怎么样的方法是最高效的，最不容易犯错误的，这个研究领域就称为知识表现。在研究过程中，我们产生了很多好东西，把它称为知识库。比如说 Wikipedia 或者百度百科，我们去看的时候，在它的右边有一个叫做 Infobox的边栏。比如说我们查北京，在 Wikipedia 上就会有北京的人口、经度、纬度等等，实际上它是一个很简单的表格。这些表格以前是人来看的。后来就有人说，为什么不把这个东西变成一个机器可以读的格式呢？于是就有好几拨人来做 Wikipedia 知识图谱的构造，后来在德国的一些大学里，他们做了一个项目叫 DBpedia，后来在美国有个公司叫 Metaweb，他们做了一套叫 Freebase，这些所有的系统都是在说我们怎么去方便用机器来进行知识的表示，后来 Freebase 被谷歌给买了之后，改成谷歌知识图谱，这是2012年的事情。

第三部分是知识存储。当我们有了海量的知识以后，如何放在计算机里面，让数据库能够更好地存储和表达呢？传统的数据库是关系型的数据库，一张一张的表。现在我们要面临的不是一个简单的关系，表的两列之间可能有关系，表的两行之间可能还有关系，表的每一个格子和每个格子都可以有关系。所以说它很难用传统的关系数据库或EXCEL来表示，所以又兴起了一系列的新数据库。比如图数据库，还有像RDF数据库，根据不同的应用，我们会选择不同的数据库。

最后一块叫知识检索，从最低层面的大家常见的关键词的检索，到最高层面的问答系统的检索，中间有很多不同的环节。这一块就是在讲，我现在有了一大堆的知识在我的数据库里头，怎么发现它，这一块基本上是从搜索引擎的研究里边分出来的。

大概在2012年前后，这4个领域都都遇到了瓶颈，都发现知识是如此的重要，发现解决方案就是知识的处理，于是融合成新一个领域叫知识图谱。

数据的递进

数据的递进可以大致分为六层。从原始的数据，比如说我们从巨潮网上看到的那些公告数据，或者是我们从客户那里拿到的原始的财务报表，到最后我们能够“变魔术”，中间有一级一级、数据质量不断提升的过程。这个魔术会根据不同的场景变化。比如说并购，假如一个海外公司委托我们分析国内哪家公司是最值得并购的，我们就能告诉他这个公司的名字，这是魔术。又比如说散户，他要投资，希望你告诉他哪支股票买了可以涨，这也是魔术。但是不管是人还是机器，现在都没有办法通过这些数据立即得出结论。我们需要一步一步分析，每一步的分析背后还要有证据。我们需要一步一步地去发现数据背后的关系，提高数据背后的质量。

其实在没有这些东西的时候，比如说100年前，那时候也是要做投资的，所有这些数据全都没有，大家怎么做？当时也有办法。人是有直觉的，人是有经验的，人是有人脉的。我听说李四说这个股票会涨，这个股票肯定会涨。这是当时的方法。100年前的股市，就是投机分析。后来大家慢慢地变得更加理性了，慢慢地发现我们需要信息披露，慢慢地需要进行审计了，包括这些年随着信息化的成熟，大数据技术，各种信息的自动化，一级级地把数据质量提升上去，每提升一级数据质量之后，人做判断的时候，就没有必要完全依靠非数字的物理世界的经验和人脉来做。我们每多一些数据，都可以加快我们的分析的速度、效率。

2017-02-21_艾瑞-16

分析的递进

分析技术也分为六层来讨论。

2017-02-21_艾瑞-17

第一层在我看来就是提高数据的可访问性问题。现在我们有大量的数据是在每个企业自己的墙里边的，在每一个部门，每一个组织，都有一道信息墙。每一个组织内部都有自己的数据的不同的格式，各种处理的流程。很多数据壁垒问题，我们也很难仅仅通过技术的手段就能够解决，但是还是存在大量的事情我们可以做得更好。比如说那些PDF的数据，在美国的SEC网站（https://www.sec.gov/）上，你可以下载到所有的公司结构化的数据，但在中国是没有的。我们就需要从PDF里面把这些数据搜索出来，这个事情技术上是可行的，因为我们能做到，这就是在进行数据的可访问性的探索。包括有一个工具叫 TuShare（http://tushare.org/），在座很多人可能也用过，它就做了一件很好的事情，把分散在很多地方的数据变成一个统一的API。大家做量化的，或者做投资的、做分析的，都可以用它那个API来访问数据，这也是提高数据的可访问性。

第二层就是数据的可发现性。现在我们有数据了，问题就来了，太多数据怎么办？根本找不到。如何提高数据的信噪比，这是数据的可发现性问题。我们有搜索引擎的技术、推荐系统的技术、推送系统的技术，可以解决这些问题。

第三层，深度的关系的发现。现在我已经有数据了，数据背后是什么？当我发现这个企业有很多问题，我就要想，这个股东是一个有限合伙人，这个有限合伙真实的股东是谁？一直追溯到自然人，这就是一个典型的关系的发现。

第四个层面是在讲领域知识的集成。因为在我们进行分析的时候，通常我们是会针对比如说一个垂直行业来做，做行业分析的时候，我们都会看每一个行业，锂电池有锂电池的逻辑，珠宝有珠宝的行情。每个领域里头都有大量的专有名词，大量的人的关系、公司的关系，我们把所有的这些关系都称为领域知识。这块会有各种知识库构造的工具方法需要我们去探索。

第五层就是业务知识的集成。比如说我们要进行股票投资的时候，不管是长期的投资，还是短期的投机，其实都是有大量前人已经摸索出来的规律，比如说财务的校验，哪个公司的财务可能出问题，这是最基本的，有很多很多财务的规律，我们可以去套。比如说像做波段的，或者做短期的，也是有很多前人推导出来的微观的市场结构的东西，我们可以去推导，这些东西都可以变成软件。

最后一层就是更笼统了。凡是上面不能够囊括的东西，我都把它扔在这里边了，包括用户的建模问题，逻辑链条的学习，风险、渠道的认证，证据的收集，证据的排序，所有这些东西会产生一个策略，会有帮助。那么把这些所有的东西做成之后，我们就会有了一种研究系统，通常会包含这6层的东西。

一些实践

说了太多理论了，下面说一些实践。这里具体举几个例子，在我们过去大半年的探索中，根据上面说的这些方法，尝试了很多种不同的生成报告的方式。

2017-02-21_艾瑞-20

这是我们去年7月份做的，行业快报。它主要是针对新三板做的，有哪些公司挂牌了，有哪些公告，成交量怎么样，大家很容易想象的一些很基本的东西，做了个图文并茂的快报。

2017-02-21_艾瑞-21

这个跟上面那个很类似，但是是在微信里分享用的，一个可视化的年报和半年报。去年在半年报季的时候，我们给差不多几千个新三板公司都自动生成了这样一个报告，把半年报里最重要的一些信息概括起来，生成大概十几页的可视化报告，HTML5格式的。

2017-02-21_艾瑞-22

自动化企业分析报告。这是给一家咨询公司做的。他们之前找了很多实习生来做这件事情。他们主要是做并购，所以对领域里的每一个公司都要了解到。这些公司的基本情况大概包括十几个要素，包括基本面、产品、竞争优势、销售模式、实际控制人，还包括有没有诉讼，实际控制人有没有负面新闻等等。一般来说，一个实习生进来的时候，第一个月根本干不了这事，要培训至少一个月才能做。手快的要一天，手慢的要两天才能做这样一份报告。我们看了以后，认为整个报告全部可以自动化，就把它给自动化了，最后我们可以1秒钟生成这样一份报告。

2017-02-21_艾瑞-23

这是2016年10月份，跟银行做的另外一个事情。银行看了我们的自动化报告以后，觉得可以用在信贷报告上。银行在做准备工作的时候，信贷报告有大概两三百个考虑要素。我们做了一个评估，蓝色的那些东西是可以自动化的内容，那些红色的东西是没有办法自动化的，黄色的是可以半自动化的，至少是可以提高效率的。我们对几百项都做了这种评估，我们发现这样做下来，至少还是可以提高一半的效率。跟那个类似的还做了债券的评级报告，也是差不多的事情。

2017-02-21_艾瑞-24

后来开始做公告摘要。我们评估了一下，在过去的一年里，A股有36万份公告，新三板有33万份公告，去年一年有18万份的研报，其中5万份的深度研报。每个分析师平均要跟进20家企业，每天要花一小时时间阅读公告，可以考虑到其巨大的人力投入。把非常初步的信息跟踪自动化，就是我们的希望。

现在一些机构在用人工来做这件事情，平均每家都有至少20个人的团队来做人工摘要的编写。在去年12月6号的时候，我们看了A股披露的所有公告，当天是1700份，其中有摘要的只有125份，也就是说目前人力的极限，大概是不到10%。我们有没有什么办法可以覆盖到100%？所以我们先开始做了一些测试，大概从去年12月份开始做。A股一共有99种各种不同的公告，要分别处理。比如说停牌公告，一般是两页纸，最核心的是两件事情，什么时候停牌，什么时候复牌。以前是要人来做摘要的。如果我们用机器能够帮他们做到这一点，我觉得是一个非常有价值的事情。大家至少可以多点时间和家人一起，有时间谈恋爱了。

2017-02-21_艾瑞-26

后来我们陆陆续续做了十几种不同类型的公告。比如担保公告，担保额度是多少，标的是什么，为什么，与公司的关系是什么，这些提取都是可以用机器来自动化。还有中标公告，招标方是谁，招标的项目是什么，招标的金额是多少，都可以用机器处理。

2017-02-21_艾瑞-27

数据提取出来后，就可以生成一个自然语言的公告摘要。生成了这种摘要之后，我们把它集成在一起，我们把它称为公司历程。这是一个例子，这个公司过去这段时间发生了很多事情，我们把不重要的都已经过滤掉了，不用每个公告打开看了，里面最核心的数据点都在这儿，一目了然。

什么能够自动化？

我们现在可以回过头来看，一开始这张表，金融报告能够自动化吗？我们分类来讨论：

第一类信息披露报告，我们认为这一部分报告主要是写作，这个是可以部分自动化的。在这之前，我们跟券商挂牌部门，就是通道部门，进行过很多次接触，里面相当多的部分是可以自动化的。比如说财务部分，它是跟银行的业务是一样的，大量的财务报表，本来企业交上来的时候，就已经是结构化数据，没有必要人工的再重新搞一遍，这是可以完全自动化的部分。

再说可以半自动化的，提高效率的。比如说在券商做招股书的时候，都会有一个过程，就是反馈意见。股转系统认为不清楚的地方该如何处理？通常他们的做法是找到以前类似公司的处理方法。然后看案例，这些案例只能在PDF里面。浩如烟海的PDF几万份，之前只有非常熟这件事情才能够做到。实际上这些反馈意见，其实都在那儿，这是可以提取出来变成案例库的。把它提取出来变成案例库以后，就可以大大地节约人力，这是一种半自动化。所以股转书、公开转让说明书，跟银行的审计报告一样，存在大量可以自动化的部分。

第二类是研究性的报告，卖方的报告、买方的报告，包括咨询公司的报告。这些报告单从写作的层面上来说，我认为现在还是比较难以自动化的。之所以大家要这样的报告，是因为它的 Insights。18万份报告里面，大概5万份的深度报告是有Insights的，其他13万份还是一个比较普通的报告，那部分报告是有可能被自动化的，但是深度报告还是很难。这一块我认为机器能做得最主要的工作就是数据准备。比如说要做一个公司的报告，这个公司的A股上的对标公司是谁，美股上的对标公司是谁，这些公司对应的财务指标是什么。在这些信息的挖掘上，机器是可以帮大家的。

第三类是日常的报告，这一类基本上是可以自动化的，我认为5年之后，这些东西很可能不会再由人来写了。

最后一部分就是知识的介绍、观点分析和八卦等等。我认为目前还是比较难自动化的，所以“金融八卦女”还是一个很好的项目 :)。

分析师如何应对AI

2017-02-21_艾瑞-31

最后再多说一点，在人工智能的威胁之下，大家该怎么应对这些事情。人工智能是纸老虎，它并不可怕，因为它毕竟只是一些算法。但是如果我们不准备好了，它也可以变成真老虎。

要做什么样的准备呢？大家可以听一个笑话，如果在森林里头遇到了老虎怎么办？有两个策略，第一个是跑得比老虎快，第二个是跑得比身边那个人快。跑得比老虎快是比较难的，但是跑得比旁边那个人快，还是容易一点点。大家看看旁边那个人，是不是可以跑得比他快一点。

我们还是有办法跑赢真老虎的。

第一条是颜值、情商和亲和力。为什么有了这么多在线房源数据库之后，还要房地产中介，它起什么作用？其实它就是心理咨询。买家和卖家中间的担心、焦虑、不确定性，这种东西是没有办法通过机器消灭掉的。这就是中介永远会存在的原因。包括医生很大程度上也是这样的，医生至少超过一半的作用是安慰。这一部分机器是肯定干不了的。

我曾问我司的分析师，到我们公司来以后，你觉得你最想加强的能力是什么？她给我一个非常令人吃惊的答案，她说PPT。我仔细一想，这蛮有道理的。我原来也在大公司工作，干活的不如写PPT的，写PPT的不如讲PPT的，所以如何把信息给表达出来的能力，机器还是做不到的，机器填表那种方式做出来的东西，那种表达力、说服力还是不如人做的东西。

第三个就是信息的抽象能力。机器在纷繁复杂的数据中进行抽象，特别是发现背后的这些关系是不如人的。

第四个是信息源。因为机器所有的分析都建立在比特世界的基础上面。事物数据化之后机器才可以处理。在这之前，大多数重要的信息，在它之前就已经发生了。这是我们人类的优势，我们可以找到专家、企业的负责人去聊，这是机器很难做到的事情。

最后一点是长程的逻辑推理链条，机器很容易做所谓的短程关系的发言，比如说奥巴马老婆是谁，这件事情很容易做的。但是长程的，巴西下雨了，什么样的农产品会涨价，这是一个长程的关系，机器是比较难以做判断的。这是跑赢老虎的办法。

跑赢旁边那个人怎么做呢？我们用机器去加强我们自己的能力，编程能力，提高我们效率的能力。

提高效率细分为几块，一个是提高我们获取数据的能力，比如爬虫。在使用一些金融终端进行分析的时候，很多事情其实是机器可以做的，它可以自动帮你，每天、每周，把你关心的数据爬下来，可以节约你很多很多的时间。要想学会这个事情不难，很快，如果想做的话，一个星期就可以做到。以后一生都可以用这样的机器，多好。

我们可以用数据库，可以写规则。比如在网上有很多现成的规则的工具，其中一个叫IFTTT，如果在新浪微博上发现了一个人在讲某一个股票，让它发个Email给我，可以节约大量时间。

我们去进行信息搜集的工作。凡是一件会让你烦的事情，那就意味着它可以自动化。

学习机器学习的基本工具，比如说 weka，是有可视化界面的，基本上只要学会怎么导数据，怎样一步一步选一个算法，就可以得到结果，机器学习并没有大家想象的这么难以去掌握。

我们只要掌握了工具去进行信息的收集和信息的整理，我们可以比我们身边的人，或者另外的那个楼的人工作效率更高。

最后一点，我觉得也挺重要，跟第一点一样重要。现在有太多的人会声称人工智能无所不能，但是真正的从业者知道，它非常局限。在大多数事情上，我们只能推进一点点，而这一点点还是要大量的人工去堆的。“有多少人工就有多少智能”，现在还真是一句真理。我们在工作当中，通常大多数时候并不需要非常高深的人工智能的知识，就可以极大地提高我们的效率。这一点点，就可以帮助大家跑赢旁边那个人！

实事求是谈金融报告自动化

三个迷信

金融报告是什么

人 vs 机器

背后的技术

知识图谱

数据的递进

分析的递进

一些实践

什么能够自动化？

分析师如何应对AI

评论

发表回复取消回复

实事求是谈金融报告自动化

三个迷信

金融报告是什么

人 vs 机器

背后的技术

知识图谱

数据的递进

分析的递进

一些实践

什么能够自动化？

分析师如何应对AI

评论

发表回复 取消回复

发表回复取消回复