上周六(2016年8月20日)由文因互联CTO、联合创始人张强主讲智能金融沙龙第10期——“金融自动化报告现状、发展与未来”。
报告自动化是自然语言生成在金融领域的应用,它涉及的底层技术有知识抽取、自动文本摘要、自动可视化摘要、可视化、知识图谱等。想知道机器真的能取代人生成报告吗?分析师和记者会失业吗?以下是沙龙内容,enjoy 🙂
近年,国内在机器人写作领域出现了一些产品后,引发大家的讨论和关注。诸如“机器人写作会取代人的写作吗?”和“分析师和记者会会因此而失业吗?”的讨论有很多,相信大家都有自己的判断。而我主要是通过本次沙龙给大家梳理一下里面的逻辑和一些坚定的信念,希望大家都能通过这20多分钟的presentation,找到自己满意的答案。
分析师和机器人在做什么?
首先,既然要讨论分析师和记者会失业吗,我们就先来看看分析师和记者在做什么。
我在过去的一段时间通过接触一些新三板行业的分析师,对分析师的日常分析逻辑已经有了一些初步的了解。通常,分析师获得需要分析企业或者是标的后的第一阶段是从各种渠道获得企业信息和公开数据,对企业形成一个基本面的了解。进入第二个阶段就是对标的企业会做一些尽职调查,然后最后一个阶段就是通过收集的所有数据来撰写一个分析报告,其中包括一些公司亮点和投资风险的提示。
第二个是近期在奥运会的时候今日头条上线的运用人工智能机器人张小明。机器人张小明是今日头条头条实验室的研发成果,其「写稿」模块是由头条实验室与北京大学计算所(万小军团队)联合研发而成。这是国内第一款可以报道奥运赛事的人工智能机器人,在结合了最新的自然语言处理、机器学习和视觉图像处理的技术之后,通过语法合成与排序学习生成新闻。相比国内第一代写稿机器人——腾讯的「Dreamwriter」和第一财经的「DT 稿王」,张小明的写稿技术已经进入是第二代写稿水平。与第一代机器人相比,第二代张小明有着速度快、样式多、自适应自动配图的特征。
尽管这个张小明机器人的写的稿件仍然具有一些模板的痕迹,但是写稿机器人可以在6天内生成近200多篇的报道,这对于记者来说是目前无法完成的一个任务,同时也是机器人写作在速度与时间上的巨大优势。
Automated Insights的Wordsmith
Automated Insights的主打产品是Wordsmith自动化报告生成平台,主要用户包括美联社,yahoo等公司,为他们提供大量的咨询,报告生成服务。
下面的这个例子我们可以看到,用户用户输入了一个财务数据表格,Wordsmith,根据这段数据生成了财务数据的描述信息,同时还关联到了Zack Investment Research对这个公司的财务报表的分析。这里我们可以看到,Wordsmith可以根据用户输入,找到关联数据,从而进一步丰富报告的内容。所以可以说Wordsmith特点就是基于知识库的数据关联和聚合。
人的写作 vs 机器人写作
人工写作的优点是语言流畅、内容丰富、丰富Insights。而机器人的优点是生成快、内容相对丰富、简单分析罗列。从现有产品的对比来看,人能够写出具有高质量观点的文章,而从机器人写作上看,除了生成速度方面有优势外,并没有什么特别的地方。那我们从技术角度出发,看看短期内机器人写作有没有可能获得巨大发展。
机器人写作背后的技术
机器人写作背后有很多技术在支撑,自然语言处理、机器学习、词法分析、语法分析等等。这里就不一一展开去描述了,我们主要来介绍一下自然语言理解和自然语言生成这样两个技术。
从数据处理流水线我们可以看出,自然语言理解主要的作用是将原各种个样的始数据转换成结构化数据,而自然语言生成的作用是将生成好的结果化数据,最终转换成描述性文章。对于机器人写作,输入数据的不同,会导致处理流程稍有不同,如果说输入已经是结构化数据,那么自然语言理解这个步骤就可以跳过。
自然语言理解(NLU)
自然语言理解(NLU)是将各式各样的原始数据转换成具有一定内部逻辑的结构化数据的这样一个过程。
首先对各种各样格式的原始数据进行清洗,通过去除原始文件格式、除去重复数据,对数据排序等一系列操作获得一个中间版本的干净数据。
接下来对干净数据进行一系列处理,包括命名实体识别(比如说识别文本中的公司),企业名称关系发现(比如说公司A投资了公司B,那么我们就需要在这两个公司实体之间,建立一个有向的投资关系),实体关联等一系列操作。
(注:脏数据是指html数据、图片数据、csv数据等等;干净数据是指经过处理的去除外部结构的文本数据、文本段落数据和必要的meta data 元数据。结构化数据是指进行了NER、词法、语法语义分析后生成的结构化数据,通常以json文件表示)
自然语言生成(NLG):基于模版
这种基于模版的自然语言生成。相对来说比较直接,因为整个叙述性文档的语法与结构等都是由模版定义好的,然后会根据具体的数据内容再做一些输出的局部调整。
我们在这里举个例子,上面这张图是Automated Insights公司Wordsmith产品的报告生成示意图。在生成的这段话中有4个部分是可以根据具体的数据值来变化的,表达“具备,具有”这个含义可以有3个词来表示,根据屏幕的大小也可以给出不同的形容词等等。
而基本模版的方法再往前走一步就是引入更多的外部资源来辅助文档的生成,这样的话就会演化成为基于知识库或者知识图谱的自然语言生成。
自然语言生成(NLG):基于知识图谱
关于基于知识图谱的自然语言生成,主要分为两个阶段,数据分析阶段和语言表达阶段。
在数据分析阶段会将结构化数据与领域知识图谱进行匹配和对比、建立关联、对结构化数据进行补充,筛选出真正有价值和值得关注的信息。
而在语言表达阶段,就是需要将信息自然地、流畅地表达出来。所以来说也是一个相对来说比较复杂的过程,因为其中包括:文档规划(决定信息需要以什么样的方式和顺序来表达);选择什么样的数据可以合并来表示;采用什么样的指示代词来简化表达;通过领域图谱和推理规则,发现结构化数据中不同的数据点 比如偏离行业均值比较远的点。
在这里我们举个汽车行业的例子,我们从PDF中解析得出一家公司的主营业务是汽车电泳涂料的生产,联合全网的数据得到汽车行业的销售量在下降,再加上推理可以得到公司的主营收入会下降的这样一个观点。但是这样有一个问题就是领域知识库和推理规则的构建本身是一个非常漫长高成本过程,而且人工智能在构建过程中起到的作用还很有限,机器能自发产生观点但是在很长一段时间内无法超越人的观点。
所以我们回到问题“分析师和记者会失业吗?”,答案是不,因为分析师和记者优点在于探索和发现观点洞察,而机器的长处在于数据收集和整理,目前机器还是无法取代分析师和记者。但是在未来很长的一个时间点,随着人工智能的新发展和新技术的突破,答案或许会有所改变。
文因自动化报告实践
接下来我将介绍一下文因互联在对三板上的从业者进行一轮沟通调研后,在投资研究跟踪的不同阶段自动化报告的实践。
在对投资者调研的时候,我们发现投资者的需求主要集中在投前行业研究、新在审,新挂牌企业的研究、企业持续跟踪需求与投后风险提示需求。而在这些需求的背后主要还是亟需将人力从数据收集、整理的繁杂工作和数据过载中解放出来,让投资者更关注于业务逻辑以及领域模型的构建,在更短的时间内获得必需的数据,从而提升工作效率。
所以我们根据新三板市场企业多、公告多、领域少、研究少的特点推出了行业动态速递、H5可视化年报半年报、挂牌企业分析报告。
行业动态速递
行业动态速递聚合细分行业的变化信息,主要展示新在审的企业、新挂牌企业、新定增企业的投资机会提示。因为三板市场和早期市场比较类似,所以还有补充早期市场数据这样跨市场的数据变化,除此之外还有企业亮点的展现。
H5可视化年报半年报
新三板有8000多家企业,很多企业都是只有在挂牌那一天会有人关注一下,然后就彻底从人们的视线中消失了。再加上三板投研机构人力无法覆盖所有企业,所以需要通过机器来为所有企业生成可视化的报告,这样就可以更为直观的让企业的投资亮点得到展示。让信息在企业和投资人之间更加顺畅的流动起来。
挂牌企业分析报告
文因在对一家新三板上的企业生成了一份这样的挂牌企业分析报告。大家都知道股转说明书通常都有200多页,投资人没有时间去逐一仔细阅读。所以我们通过自然语言提取等人工智能技术从中提取了关键的信息如该公司的核心技术、主要客户变化等。同时再加上投资风险这样知识图谱的推理,将200多页的公开转让说明书变成更为简洁直观的企业分析报告,从而更好的为投资者节省时间、提升工作效率。
责任编辑:严泽徐
发表回复