以下文章来源于股转研究 ,作者鲍捷
摘要:作为自然语言处理技术和知识图谱技术的交集,知识提取技术可以从文档(如招股书)中提取关键数据,为科技监管中面临的问题提供了有效的解决途径。本文分析了知识提取技术在现有监管业务中的应用,并列示了在监管大数据平台、大数据分析、舆情监测等方面的可能应用。然而,监管知识提取也面临着格式复杂、冷启动等挑战。针对此,本文设计了一套基于柳叶刀方法的知识提取流水线。柳叶刀方法针对单一的标注学习方法的弱点,提出了迭代式的模型构造方法。可以做到构造知识生产流水线,将版面分析、篇章分析等分工序逐步实现;数百个小模型混合工作,实现细粒度的模型分解;模型高速(小时级)迭代并充分利用先验知识。此外,用深度学习进行模型泛化,有利于扩大现有规则系统的兼容能力。
关键词:监管科技 知识提取技术 柳叶刀方法
一、背景
监管科技(RegTech)这个词虽然在近几年才为公众所知,其发展已经历约二十年的时间,发展的过程可分为三个阶段:监管1.0,解决数字化和电子化的问题;监管2.0,解决网络化和协同化的问题、OA(办公自动化)的问题;监管3.0,解决自动化和智能化的问题。
中国金融监管机构在近期发布了多个监管科技建设工作的顶层设计文件。证监会发布《中国证监会监管科技总体建设方案》,提出了7大场景、32种落地场景,还有6大基础能力;银保监会发布了《银行业金融机构数据治理指引》;人民银行发布了《金融科技(FinTech)发展规划(2019~2021年)》。这标志着金融监管科技已进入大规模实施的阶段,特别是进入了“监管3.0”时代,以大规模的自动化信息处理和人工智能的广泛应用为特征。
把传统依赖大量人工操作的监管业务执行转化成计算机辅助的监管业务执行,要满足处理的实时性,也要满足监管的合规性,在各个层面都面临着很大的挑战,需要综合运用多种人工智能技术。这些挑战在技术上可以分为两个大层次。
其一是数据的机器可处理性。传统的监管过程面临着大量的知识、文档分散在不同的地方。此外,还面临不同的时间发布、不同的机构发布、不同的来源发布等情况。如何把大量的数据集成起来,变成一种统一的机器可处理的格式,是一个巨大的挑战。传统IT的架构处理与监管科技当前面临的新问题之间存在很大的鸿沟,传统的IT系统处理的大部分都是结构化数据,但是在监管和合规任务中大部分的原始数据是非结构化数据,必须引入新的技术手段来解决。
其二是知识的机器可处理性。监管业务也具有强业务知识复杂性,如交易性监管、披露性监管、合规性监管等。传统的数据分析方法,如数据仓库、机器学习,往往无法处理这些具有复杂逻辑关系的深层关系(如穿透式监管、产业链、合规规则)的发现与执行。这类深度关系需要我们引入知识工程的技术来处理。
在信息披露的电子化阶段,XBRL(可扩展商业报告语言)曾起到重要作用。但是,XBRL技术也存在一些局限使之无法满足新阶段的需求:一是XBRL主要为财务数据描述设计,对占披露信息大多数内容的非财务信息难以刻画,难以描述全景式画像;二是XBRL缺少精确的语义定义,难以承载监管知识的表达和业务流程的自动化;三是XBRL依赖披露人员的手工填写,成本高、速度慢、填写质量难以保证;四是XBRL软件工具依赖预先定义好的数据字段,难以适应业务的快速演变。
因此,为满足监管3.0的要求,传统监管数据的电子化技术势必需要与人工智能技术相互补充。例如,自然语言处理(NLP)技术可以帮助我们极大扩展数据的机器可处理性,知识图谱(KG)技术可以帮助我们实现知识的机器可处理性。作为NLP和KG技术的交集,知识提取技术可以从文档(如招股书、年报、公告)中提取出关键数据。这些数据也构成了监管知识图谱的底层数据,可以在其上构造诸如实体库、事例图谱、产业图谱、业务流程规则等高级图谱。
二、知识提取在监管典型场景的应用
知识提取技术快速发展,在现有监管业务中已经有所应用。例如,上市公司公告有400多种,在发布公告时,如有简明的核心要点摘要,将大大帮助投资者快速了解其内容。但交易所用人工编辑团队产生摘要,每天只能处理其中9种公告。利用机器提取核心要点后,大大提升了公告处理的及时性,已实现100多种公告的当天处理。又例如,在披露审查和合规监管中,均需要考虑董监高等企业核心人员之间的关系。例如,在判断关联交易中应考虑亲属关联关系。这些关系的描述散落在数百万份披露材料中,难以人工处理。通过机器处理,发现A股上市公司和新三板挂牌公司中两万多人之间存在亲属关系;通过工作履历和学历的分析,还发现大量疑似同学关系和疑似共事关系,可用于风险排查。
由此可见,知识提取可以大幅提升监管工作效率。其实,监管3.0规划的很多方面都依赖于知识提取的技术。
在监管大数据平台方面,要求建立统一的监管大数据平台,存储精准的小数据和海量的大数据,建立资本市场领域各类主体的知识图谱,人机密切配合,将数据转化为知识。如公司实体、投资机构实体、人物实体、产品实体、产业实体、事件实体等海量的实体实例和数以亿计的其间的关系,以人工方法创建是不现实的,势必要求我们用知识提取的方法,从大量文档中提取出各类实体的信息,建立实体之间的关联关系,并通过实体库对外提供一个完整的数据视图,构建共享的资本市场主体知识图谱,支持各类主体画像与协同监管。
在大数据分析方面,要求利用深度学习、知识图谱分析等先进的智能分析算法,为行政审批、风险识别、稽查执法、日常办公等监管需求提供专业化的大数据分析服务,构建监管第二大脑。这就要求我们从海量文档中提取构造分析模型所需要的基础数据,如从既往的处罚文件中提取被处罚主体的关键数据以发现隐含特征。
在公司画像方面,要求使用招股说明书数据、企业工商数据、监管数据、专利数据、舆情数据等对资本市场的所有相关实体进行画像分析,识别潜在的风险并进行提示。对招股说明书、债券募集说明书、定期公告、各类临时公告等,要提取企业的基本信息、组织架构、业务运营、关联图谱、重大事项等各种实体属性。
在舆情监测方面,要求针对证券市场各主体有关的海量舆情信息进行分析,通过自然语言处理技术对舆情数据进行特定信息的抽取和解析、标签化处理、实体知识与领域知识抽取,搭建舆情知识图谱。如对黑嘴检测、新闻事件风险预警,企业关联分析方面均需要对新闻、微博、微信、股吧数据等进行提取。同时,舆情数据也是对信息披露数据的重要补充,提升公司画像的及时性。
在关联账户分析方面,要求采用知识图谱等技术对各交易主体的账户进行画像,准确刻画交易账户的静态基本属性和动态属性,综合构建账户特征标签和账户间的关联网络,以支撑运用机器学习等技术分析潜在异常交易或违规交易风险。这依赖于整合大量主体的监管系统内数据和外部数据,发现各种蛛丝马迹,如潜在人员关系、潜在股权关系、潜在交易关系等,不断从各类文本中丰富交易主体知识图谱。
在机构违规业务方面,要求基于内外部数据,识别违规从事证券业务的非持牌机构和持牌机构的违规非持牌业务。这在底层也依赖自然语言处理、知识图谱等技术,发现公司关联关系、业务分析等。
近两年来,各监管机构对上述各应用场景均有了初步的尝试,获得了明显的效果。例如,上交所和深交所均建立了公司画像系统;上交所在科创板审核中成功运用招股书自动抽取技术,大大提升了审核工作效率;全国股转公司开发了新三板信息披露智能监管系统(利器系统),初步实现利用自然语言处理和知识图谱技术,对挂牌公司进行风险画像、财务粉饰预警评分。
三、监管知识提取面临的挑战
监管业务中的知识提取相比一般性的文本抽取任务,具有很多独特性,因此需要专门的优化算法。我们面临的挑战主要有以下六点:
第一,复杂格式问题。监管业务中处理的主要文档格式是PDF,其中包含了丰富的版面、格式、篇章、图表等信息。这些信息不但可以帮助我们更好地辨识文档内容的语义,其本身也往往是抽取的目标。传统NLP任务中的知识抽取,是针对纯文本(PlainText)的;监管知识提取则需要保留这些“富格式”,并在多层次粒度上(如章节、段落、表格、句子、词汇)理解文档语义。
第二,稀疏标注、冷启动问题。传统的机器学习方法和目前主流的深度学习方法,都要求大量地标注样本进行训练。但是,实施中大量的问题无法获得足够的标注数据。我们需要利用少量的人工标注,或者数据交互工具快速冷启动模型的迭代。例如,我们需要运用无监督学习技术、小样本学习技术、多模型对抗强化学习等方法,让稀疏标注也可以冷启动。
第三,先验知识融合问题。有大量复杂的业务知识是无法通过统计归纳从原始数据中提取出来的。同时,人拥有的先验知识可以大大加速或提升基于统计或者神经网络的各种算法。例如,大量的会计准则和财务科目勾稽关系,无须通过学习,可以通过对XBRL schema和会计知识库的处理获得。我们需要混合型系统让先验知识以规则、模型训练输入、启发式系统的方式与其他方法结合,也需要我们开发各种知识编辑器、数据校验器等帮助知识工程师或者领域专家进行知识建模。
第四,定向优化问题。实际交付中经常会面临紧急任务,在极短的时间内(小时或天)就要针对一个专项做优化。这就需要我们在架构设计上允许这种可演进性。一方面,需要可增量学习的系统,不需要对新任务全量重新训练;另一方面,也需要系统具有现场可配置性和可编辑性,以方便利用规则、词表、参数等多种方式实现快速定点优化。
第五,可解释性问题。监管辅助决策一旦出错,往往会带来不可逆的严重后果。这就需要我们不能只提供一个黑箱系统,而需要对关键的决策建议给出原因解释。不可解释性是神经网络和深度学习方法的弱点;传统专家系统方法有很好的可解释性,但是需要人工构造规则,效率较低。这需要融合两者的优势,提供可解释的学习系统。
第六,系统成熟度问题。由于面临的问题较新,经常会遇到底层系统不够成熟的问题。如对于知识图谱的存储,数据库系统的容量与速度往往还不能满足较大数据量,系统的稳定性也不够成熟。深度学习各种框架也面临快速迭代中有大量软件缺陷的局面。因此,在技术选型中不能盲目选择最新技术,而需要根据实际来作出抉择。
所以,我们往往不能依赖所谓“端到端”的学习技术,而必须把面临的复杂的提取问题,分解为多个环节的流水线问题。在流水线的不同环节,综合应用不同的方法,并尽可能利用金融的先验领域知识。在落地的时候,上述问题也是我们需要关注的边界条件。
从实际问题入手,针对监管知识提出面临的挑战,本文列举了以下实例。
财务信息变化多端的陈述形式,如图1所示,子公司资产及净利润有多种陈述形式,目标信息点分布在表格中或段落文本中。表格有多种陈述方式,无法通过固定的表格项来定位目标信息点。同时,表格又具有表格嵌套、表格分页、跨栏单元格、部分多列单元格、单位模糊等问题,需要一一处理。
财务科目的变更,为正确理解财务科目,我们需要建立财务科目的知识库,将财政部历年发布的企业会计准则中有关的财务科目改名的知识建立起来,才能在提取后把不同年份的数据正确对齐(如图2所示)。
业务知识的理解歧义,信息点的准确定位不能仅仅依赖字面上科目名称的比较,而必须基于业务知识选择正确的数值。如果不理解业务,仅仅通过字符串的相似度或者词向量的相似度来做定位,就会得到错误的结果(如图3所示)。
通过上述例子可见,监管任务中的知识提取是一个难度很大的工作,要求在工程上针对大量的子任务进行精细模型分解,也需要对业务知识有深刻理解并集成到模型中去。
四、知识提取流水线与柳叶刀方法
在我们的实践中,设计了一套基于“柳叶刀方法”的知识提取流水线。柳叶刀(Lancet,Linguistic Anatomy and Knowledge-based Comprehensive Extraction)方法针对单一的标注学习方法的弱点(如冷启动困难、时间长,难以充分利用金融现有的知识,新标注数据训练模型的成本极大,运行速度慢等),提出了迭代式的模型构造方法。柳叶刀方法的技术要点如下:其一,构造知识生产流水线,将版面分析、篇章分析、表格分析、句子分析、实体分析、关系分析、规则推理等分工序逐步实现。其二,数百个小模型混合工作,实现细粒度的模型分解。如仅在表格处理中,就包含有跨页判断模型、表头识别模型、表头重复性判断模型、单元格数值单位定位模型、边框补全模型等数十个细分小模型。其三,模型高速(小时级)迭代,通过大量的数据观察工具、数据校验工具、错误归因工具、错误解释工具、回归测试工具等支持渐进式模型细化,实现小时级的模型迭代。其四,充分利用先验知识,支持诸如以规则方法进行数据初步标注,以规则方法为主干、向量化方法做泛化,以及通过统计方法之后叠加规则等多种混合模型。其五,用深度学习进行模型泛化,在实体链接和关系链接等环节利用深度学习和向量化表示,提高联想能力,扩大现有规则系统的兼容能力。
图4展示了一种知识提取流水线,包含了较高层级的提取任务模块。每一个这样的模块在实施时又细分为更多的细粒度子模型。
由于篇幅所限,无法详细介绍所有的模块。下面仅以其中两个子算法为例。
一是篇章识别模型。PDF文件中没有段落,标题的概念,在进行文章意图理解的时候,为了能够更好地还原原始文档的语法单元,需要对各个文本区域的类型进行分析,识别出如段落、页眉、页脚、目录、标题以及标题层次。一个文本区域,本身是段落的一部分,还是标题的一部分,除了与它自身相关,还与它周围的文本块类型相关:其一是构建标注数据集合,包括文本内容、区域位置、字体信息、文本区域类型等。其二是构建带有记忆功能的神经网络。其三是训练文本区域类型识别模块。该模型的总体流程如图5所示。
二是基于XBRL规则进行财务数据自动化校验。在具有年报配套的XBRL数据时,我们可以利用XBRL数据作为Heuristics(启发)来引导信息定位和提取结果的校验,从而可以从较少的XBRL包括科目引导提取更多的未包括科目。在提取出结果后,我们可以通过XBRL校验规则库(如资产总计=负债和所有者权益/或股东权益总计),对应以输入标准化后的财务信息表,对财务信息表进行校验。流程如图6所示。(注:图中引用规则构造子模型和财务信息标准化子模型,此处未展开)
五、总结
过去几年的实践证明,知识提取技术在各类监管任务中已经达到可用的质量,有了很好的应用前景。监管业务特点所带来的挑战,运用柳叶刀方法,通过细粒度模型分解和迭代学习模型也可以克服。在事前审核、事中稽核、事后稽查三大环节,对于各类信息披露文档,均可以利用机器自动化处理或辅助处理,大大提升了监管工作的效率。
自动化监管文档的处理不仅提升了现有任务,也可支撑多类新一代智能化系统的实现,如全景式主体画像、新一代智能搜索系统、新一代的问答系统、新一代的报表系统、更敏捷的BPM(业务流程管理)系统等。未来,包括知识提取技术在内的人工智能技术,必将在监管的各个环节得到更广泛的运用。
本文首发于《股转研究》
作者信息:鲍捷,北京文因互联科技有限公司 CEO、 联合创始人,伦斯勒理工学院 (RPI) 博士后,爱荷华州立大学博士,麻省理工学院 (MIT) 分布式信息组 (DIG) 访问研究员。
发表回复