金融报表数据的语义化

导言:这篇文章是以前笔者的两篇博客的汇总。因为是两篇论文的介绍,概念比较多,不是很好懂。过几天会再写一篇通俗版的,敬请关注。

XRBL是金融数据结构化,继而语义化的基础。这两篇博客反映的是2010年的工作,当时XBRL刚刚在中国成为标准。目前,在A股和新三板上XBRL都成为了财务报告规范的结构化形式。不过现在看来,XBRL本身作为近二十年前的技术,本身也有一些局限性。此外企业的信息披露材料有大量的内容无法被XBRL承载,不仅依然需要大量的人力去阅读原始材料,披露材料和XBRL报告之间的不一致性也是常见问题。解决这些问题,需要更灵活的金融数据结构化和语义化方法,也需要依赖人工智能技术做好数据的自动提取、交叉验证、信息搜索、价值判断。

就新三板而言,投资的核心是价值判断和规模交易。这是挂牌企业、做市商、风险投资机构和证券基金的根本需求。

人工智能领域的深度学习、自然语言理解、语义搜索技术的应用,会为新三板投资的行业研究和对标分析中提供全面、详实和高效的数据服务。尤其是在科技、互联网和TMT行业,这些国内券商普遍普遍缺乏研究人员,研究能力较弱的现实情况下。没有研究人员提供的报告,无法完成价值判断,大量的高科技领域的公司发展无人知晓、无法了解,证券基金入市规模和交易量受到制约。企业融资遥遥无期。

文因互联提供的大数据服务,能把科技领域的全球领先公司的信息应用到新三板挂牌企业的价值判断上,这门功夫是人工智能技术给予金融行业发展带来的实质帮助。

基于语义网的证券分析

 

022701

2011-04-19  Li(李娴)和我, Jim Hendler合作的一篇文章 “Fundamental Analysis Powered by Semantic Web” [1] (基于语义网的基本分析)获得了2011 IEEE Symposium on Computational Intelligence for Financial Engineering and Economics 最佳论文。

这篇文章是前一篇文章 “Representing Financial Reports on the Semantic Web – A Faithful Translation from XBRL to OWL” [2](在语义网上表示金融报告——从XBRL到OWL的语义保真翻译)的继续。

首先,XBRL  (eXtensible Business Reporting Language)是一种金融的报表格式。各上市公司或者基金公司做年报季报,都要用这个格式。目前,在美国,欧洲,日本和中国,都在要求使用这个格式。但是XBRL是基于XML的,其中有丰富的语义信息没有得到表现。比如说,我说子公司A的收入要汇总到总公司的总收入里,但是,总公司的帐哪里,我必需把这话再说一遍:总公司的总收入包括子公司A的收入。XBRL的报告,是非常啰嗦的。

文章[2]的基本思路是:XBRL规范里的语义,和公司内部定义的一些概念(比如财年到底是几月到几月),都可以用OWL这种语义网的语言来表现。这样,我们可以做推理,还可以支持更好的自动查账——比如提早发现麦道夫(Madoff)这类的欺诈。

022702

文章[1]进一步说,有许多XBRL使用中的语义,无法用OWL来表示,可以用规则来表示。这些规则语法形式可以用SPARQL。理想的,我们应该用RIF(规则交换格式语言),但是现在RIF还没有什么实现工具,暂用SPARQL。

文章[1]还讨论了其他一些内容,比如如何利用互联数据(linked Data)和社交网络数据(Social Media Data)如Twitter,来帮助进行金融数据的分析。

现在用语义网技术做金融的分析,是一个逐渐热起来的方向。很多投行,评级机构和基金公司都在招这方面的人材。

金融是一个很复杂的领域,如何用好语义网所带来的结构化数据和丰富语义的好处,并不是一个简单的工作。这两篇文章,严格来说都还只是很初步的工作。XBRL是一个很复杂的规范,我们还没有给出它完备的语义网表示。美国SEC给出了GAAP(一般公认会计原则)分类,里面有丰富的语义信息,和XBRL是相辅相成的,也需要集成进来。我们也还需要做更深入的案例分析和应用实践。特别是工具的开发,现在还在起步阶段。Xian做了几个演示[3],感兴趣的可以去看看。

[1] Xian Li, Jie Bao, James A. Hendler (2011). Fundamental Analysis Powered by Semantic Web. In 2011 IEEE Symposium on Computational Intelligence for Financial Engineering & Economics (CIFEr).

[2] Jie Bao, Graham Rong, Xian Li, and Li Ding (2010). Representing Financial Reports on the Semantic Web - A Faithful Translation from XBRL to OWL.In The 4th International Web Rule Symposium (RuleML). (p. 144-152)

[3] http://logd.tw.rpi.edu/test/corpdata/demo/secinshub_v2.0.html TWC开放政府数据网站也有一些和财政或者金融相关的例子(也是Xian Li开发的)。

XBRL,金融数据和语义网

2011-04-19

022703

对语义网和XBRL这两种技术的结合,这里再非正式地讲一点我个人的看法。这些看法都不成熟,所以都没有在发表的文章里讲过。

首先,XBRL是XML,是数据的结构的规范而不是数据的语义的规范。如何理解?比如,我们写文章,规范文章要有标题,要有摘要,引用的格式如何,这些是结构。至于这个文章说的是什么,是建一个观点还是灌水,这是语义。但是这样说,要很小心,因为XML界一样有语义的研究,在论文里措辞要很谨慎,虽然此语义非彼语义。

用语义网做数据的建模,或者其简化的版本,互联数据(Linked Data),自然可以应用到金融数据的建模上。比如说,我要研究波士顿地区半导体方向的公司的财务情况,那要看这些公司的10-K(年报)或者10-Q (季报),还要看这些公司的简况,比如公司所在地和业务范围。这里面有很多知识问题。比如,我看到一家公司位于Nashua, NH,这算不算波士顿地区呢?或者,一家公司的产品包括了射频功率放大器,那它是不是一家半导体公司呢?或者,A公司的2010财年第4季度盈利明显高于B公司的2010财年第4季度,但两个公司各自前一个季度的盈利差不多,是不是B出问题了呢?

这里面有许多语义可以利用。比如,从Wikipedia,我可以知道Nashua, NH算在波士顿大区,离波士顿大概40英里;从某产品分类,我知道射频功放是一种半导体器件,尽管那家公司没有提“半导体”这词;我还发现,A,B两个公司的财年定义是不一样的,一个包括了圣诞后的季节性萧条期,一个没有。这些都可以帮助我们决策做参考。

再比如,我们要挑选ETF。现在有很多网站可以帮助我们。但是,在某个网站上,我选了亚洲区ETF,发现它遗漏了很多中国的ETF?为什么,因为这个分类里,并没有中国区ETF是亚洲区ETF这样的一个简单的知识。

又比如,我看iPad卖得很火,想投资Apple股票。可是AAPL现在市盈率很高,不敢跳,怎么办?其实网上有很多人,买了iPad回来拆,分析里面的配件(这个就是知识了)。有分析师(fool.com上就有几位)就按这些配件找相应的公司,推荐这些股票。这个决策过程,要浏览很多网站,看很多数据(比如相关公司的P/E, P/B, 历史数据, 各种噪声)。如果有一个平台,把这个自动化了,那我就可以自定义一些ETF(也就是股票组合),比如iPad ETF, XOOM ETF, 卖得最火的手机的最常用配件的ETF,等等。

但是,是不是说,我们把数据转化成了RDF或者OWL,就让数据天然有了语义了呢?我看过很多这样的应用(未必在金融领域),对其中语义部分的有效性和必要性,持审慎的态度。对金融数据,我认为同样的态度也是必要的(有的方法直接映射XML的结构到RDF上,这个语义的质量是很差的,我怀疑能不能用)。这也是我在和部分业内人士交谈中,得到的一个非常理性的反应。

首先,简单知识的建模,比如分类关系和ER(Entity-Relation)关系,在语义网之前就有很多的工作。复杂知识的建模,是一个代价很高的过程。金融要求处理瞬息万变的数据,这个建模的复杂性是非常高的。语义的提取本身,是一个极具挑战的工作。试图完美体现一个金融知识模型,比如SEC的GAAP或者某个公司的Taxonomy,这个劳动量是非常大的,而且各公司未必有这个人力或者兴趣来做。所以,我想,一个合理的方法,还是综合使用结构化数据和非结构化数据,象Watson系统那样,大量的吃进数据,并利用现有的语义网数据。不要试图建立一个包罗万象的金融本体。

其次,推理到底在这个过程起多大的作用?我想,一个关键还是不可以拘泥于逻辑的推理。非常多的金融数据是模糊的,比如Twitter的数据(参StockTwits.com)。基于概率的模型,或者基于机器学习(比如神经网络)的模型,也许能更好的处理这类数据。

另外,就是金融数据的海量性和实时性。所有的查询和推理系统,都必须能适应极大量的数据,几个毫秒的差距都可能造成损失。基于推理机的语义网查询推理系统,能不能用,怎么用,待考。并行计算如何用,或者非传统数据库(比如基于列的数据库)如何用,如何在它们上面实现简单的金融领域需要的推理,待学习。

总的来说,我对这个方向很有信心。但是这是一个很大的系统工程,需要大的投入,需要和金融界很好的沟通。

作者简介:鲍捷  文因互联CEO 

鲍捷博士有十余年的人工智能研究经验,研究领域有神经网络、知识表现与推理、语义网、机器学习、自然语言处理等。中国中文信息学会语言与知识计算专委会委员。历任美国三星研发中心研究员,MIT访问研究员,BBN访问研究员,RPI博士后,Iowa State Univ博士,W3C Web本体语言工作组成员,国际语义网会议ISWC组委会和程序委员会成员。

发表评论