从技术上讲,机器新闻写作包括了自然语言处理(NLP)的两方面技术,自然语言理解(NLU—Natural Language Understanding)和自然语言生成(NLG—Natural Language Generation)。NLU将我们日常所见的话语消化理解,并转化为机器可后续处理的结构;而NLG可以看作NLU的反面,它将由机器分析好的结构化数据再以平常人们能看懂的自然语句表达出来。机器新闻写作需要如下几个步骤:处理海量异构数据需要将生产新闻所需的各种资料与数据消化,即包括自然文本的新闻报告,也包括数据库,第三方平台,API等等来源的结构化数据,遇到文本中的图片与表格,还需要利用OCR[1]等技术解析。注:[1] Optical Character Recognition,光学字符识别分析数据这里涉及到对各种数据的分析,运用知识图谱中常用的实体提取与实体关联等技术将关键逻辑主干抽出,结合时间地点等因素,将关键信息嵌入预先设计好的模板。文章生成事实上,经过上述步骤不仅仅可以生产新闻,券商分析研报,上市招股书,企业年报,定增公告,基金研究员上会所需的投资建议书也都可以用类似方式生成,用户只需选择符合其需求的模板(哪个主题,哪些关键信息)与形式(PPT还是PDF),便可生成基本内容;而对于准确率有严格要求的内容,再进行多次校对,人工二次编辑。目前国外做新闻自动生成的公司有:1、Automated Insights是由美联社等其他投资者投资的美国科技公司,他们的主要产品Wordsmith已自动创造出10多亿篇文章与报告,主要客户是美联社,雅虎和Comcast,在去年2月份PE公司Vista Equity Partners将其收购。[1]2、法国公司Yseop可以每秒生产3000页内容,支持多种语言(英语,法语,德语等),产品适合于银行、电信公司的客户服务部门以及财经新闻网站。再生成一篇包含基本数据和精确数据的初稿后,交由编辑记者进行进行后续的润色排版,以及深入的价值判断。[1]3、美国公司Narrative Science总共已经融资了3200万美元,该公司的著名数据分析平台Quill可以分析结构化数据,将人工智能与大数据进行技术融合,理解这些数据的重要性,从而产生简短的文字表述或结构化的报告内容。[1]此外类似的公司还有,Arria NLG,Linguastat。国内产品有:1、腾讯的DreamWriter,它根据算法在第一时间自动生成稿件,瞬时输出分析和研判,一分钟内将重要资讯和解读送达用户,腾讯称,写稿机器人不会抢走记者的饭碗,希望Dreamwriter能够解放记者,让记者从事更具挑战和智慧的工作。[2]2、搜狐的智能报盘,它由机器人自动跟踪、捕捉股票市场动态,并实时发布资讯的智能系统,通过搜狐新闻客户端“财经频道”同步推送到用户面前,让用户准确、快速获取股市即时变动情况,以及感兴趣的股票信息。[3]注:[1] wikipeida相应页面
发表回复