cnSchema: 面向bot的开放中文知识图谱schema

本文改编整理自丁力,谢殿侠(海知智能),陈华钧(浙江大学),漆桂林(东南大学)在杭州首届金融知识图谱论坛上的报告。

cnSchema是OpenKG正在努力的一个方向,其目标就是通过复用与设计schema,支持开放中文知识图谱应用落地。这里的schema就是中文知识图谱中使用的词汇集、数据字典。

从下图的实体数据中可以看到,在发布和使用开放数据中schema定义了实体的分类、属性和数据结构,是数据接口的关键部分。数据发布者可以通过schema说明“我有什么数据”,例如实体分多少类别,每种实体分别具备哪些属性和结构。数据使用者也可以通过schema提出“我要什么数据”,例如需要哪些类型的实体,某种实体必须具备哪些属性。

开放知识图谱数据发布的早期代表性科研工作有2001年提出的Semantic Web【1】和2007年提出的LinkedData【2】。目前实际应用中有两个著名的schema体系:schema.org【3】和 Wikidata (www.wikidata.org)【4】。

schema.org是谷歌等搜索引擎公司于2011年推出的schema规范体系,指导数据发布者如何在网页中嵌入并发布结构化数据。它的核心Schema由一个专家组自顶向下定义,其中近600种核心分类覆盖了人物、机构、产品、地点等常用概念,同时它也支持垂直领域工作组进一步贡献医疗、文献、金融等领域的特定概念体系。

2016年的统计【6】表明schema.org的规范已经被全球超过5百万独立域名网站使用,尤其是广泛覆盖了大量垂直领域的知名网站,例如电商60%,商旅 86%,工作70% 。美中不足的是,并非所有schema.org定义的类型和属性都被广泛使用,而且它的概念定义和数据结构也缺乏对中文市场的支持。

Wikidata是2012年维基百基金会利用其高品质的众包编辑团队推出的一站式知识图谱数据管理平台。上万志愿者依据自底向上的原则自主发布或导入数据,在经过相对严格的管理员审核来保障数据质量与可信度。该网站目前拥有2500万实体的数据。但是,Wikidata缺乏明确的终端应用,而且它过于庞杂的分类体系也不适于Bot构建领域词典。下表对比了schema.org和Wikidata在schema设计和应用方面的特色与差异。

表一:知识图谱schema设计与应用的对比(schema.org,Wikidata)

为了支持开放中文知识图谱应用落地,cnSchema希望解决下面几个问题。

  • 1)面向智能机器人(Bots)。Bots是搜索引擎后新兴的人机接口,对话中的信息粒度缩小到短文本、实体和关系,而且多轮对话还要求更丰富的上下文知识。这需要知识图谱schema提供简洁灵活的数据模型支持,例如文本与结构化数据的结合,多来源数据的融合,规整的schema定义等。面向中文市场。cnSchema是中文知识图谱接口的关键,不论是schema自身对接中文自然语言处理,还是针对中文信息中特有概念都需要支持。
  • 2)开放的schema。知识图谱的学习代价与构建成本都不低,希望能尽量利用现有规范标准,避免各家重新发明轮子,快速达成核心概念的简洁稳定的共识;进一步针对垂直领域的合作者,通过最佳实践帮助他们扩展领域知识图谱以支持数据发布和应用。
  • 3)应用落地。开放中文知识图谱天生就是一个庞大的生态体系,需要有合理的方法实现成本分摊,保障数据发布者的权益,支持大家快速应用落地并实现可衡量的价值。

cnSchema的工作正处于筹备阶段,几个代表性的工作包括(1)schemaorg的国内镜像与中文翻译,(2)中文知识图谱核心概念的schema梳理与举例,(3)schema设计原则与工具的推荐,(4)音乐,饮食,佛学等垂直领域以及通用百科在Bot中应用落地。更多的项目会在GITHUB上讨论并推进。(https://github.com/cnschema/cnschema

欢迎对知识图谱schema感兴趣的同仁加入我们,共同为为建设OpenKG倡导的开放中文知识图谱添砖加瓦,也欢迎大家关注cnSchema的微信公众号,获取更多动态。

参考资料

发表评论