整理自鲍捷在将门的分享
知识图谱技术已不是一个技术的名字,而是一堆技术。或者说是很多个技术在过去几十年的发展中,到今天汇总在一起变成一个应用的研究领域,我们把它统称为知识图谱。总的来说它可以分为四个领域——
- 知识提取:如何从非结构化数据里提取结构化数据。
- 知识表现:通过知识提取或者人工编辑之后,得到的许多结构化数据通常是用图来表示的,如何有效地把这些图结合在一起。如何高效地进行推理,是知识表现要完成的核心工作。如何把多种不同的数据集成在一起,这也是知识表现的范畴。
- 知识储存:将许多的图数据,如何用数据库进行有效的储存和查询。
- 知识检索:知识检索最经典的是语义搜索(Semantic Search),文因互联主要在金融领域里面做这种知识的检索。另外一个方面是人机交互。人机交互更多是探索,信息检索更多是搜索,这两块都是知识检索的内容。
小数据问题
- 年轻人喜欢大数据,成年人只看数据清理。
- “现在大数据变成一个营销名词。有一次我遇到了一个人,他问我“你在干什么”,我说我在做知识图谱,他说听不懂,然后我说我在做信息提取,他也听不懂,最后我说我在做大数据,他就听懂了……”
- 大数据这个词现在基本上变成计算机科学的代名词了,但实际上我们在工程当中,我们真正关心的问题,并不在于是不是大数据,我们不管是做知识工程也好,还是做机器学习也好,最核心的问题在于数据清洗,如何提高数据的质量。
“大象”不能缩放成“老鼠”
- 创业者和学校里面的研究人员,不能够去追谷歌或者Facebook。因为我们不能去看它的算法是什么样,要根据自己的实际情况去解决自己的问题,用最低的成本,用尽可能小的数据规模和机器规模,尽可能利用先验的知识,去尽可能的缩短投入产出的周期。
- 其实这也是优势。因为很多大公司,他们没有办法去处理小问题,他们的优势也就是他们的劣势。一千万人的市场规模对于谷歌这样的公司来说是一个很小的市场,那对于我们来说是一个很大的市场。这也就意味着有大量的市场的空白,“大象”其实是没有办法去做,而丢给我们这样的“老鼠”。
如何颠覆“大象”?
- 其实,现实市场中大多数的问题,并不会有Google面临的这么大,因为这里有一个典型的“创新者的窘境”。当大公司已经很成功的时候,很难去缩小规模,降低利润率到一个新的市场。
- 对于小公司而言,没有办法得到大公司那些大量的用户数据,因此技术选型的时候,必须考虑到这个成本问题。大公司能够低成本获得的资源,小公司肯定做不了。
颠覆大象的方法
- 迭代
- 观察
- 处理长尾
- 小数据
小数据的特性、价值与方法论
知识图谱不是关于大数据的,而是关于小数据的,是关于智能数据的。
小数据的3V特性包括:
- value 价值,不是连垃圾都存起来,而是特别关心数据的价值密度,提高投入产出比。
- veracity 真实性,关心数据的可验证性,可用性,自描述性等。
- versatility 多能性,因为数据要用来交换,在交换中增值,所以要适应未知的应用。
小数据的价值是:
- 催化剂,它能加速价值的产生,在数据聚合中产生新的数据。
- 浓缩铀,它是大量知识和数据的提炼,是流动性好,摩擦力特别小的数据。
- 打折卡,是能降低成本,利用先验知识大幅提高价值的数据。
如何理解小数据的“小”?
- 小用户:更多关心中小企业, 个人用户, 他预算很少, 投入敏感, 没有专家。
- 小工具:类似蒸汽机的改进其实在于各种小机械, 重视工具系统建设, 和现有数据的集成和演化, 降低认知成本, 学习成本。
- 小周期: 短周期演化, 精益迭代, 懒处理, 减少数据处理的浪费。
小数据的方法论:
- 摸论,建模是一个在常识基础上的摸着石头过河。
- 猫论,说不追求普适、客观的正确,只要在有限context可用就好。
- 不争论,要隔离世界观,保证每个人各行其是。
知识图谱的自由与成本
人工智能问题说到底是一个经济学问题,不仅是一个算法问题。
知识工程问题是一个关于自由的经济学问题,它不仅是一个算法问题。
知识管理的核心是成本
让各种不同的观点,在不同的范围内共存,这才是知识图谱能够普及的根本。这也是为什么我认为这件事情最终是应该由小公司做成,而不是大公司做成的原因。因为这件事情必须从小做起,没有一个大公司能强迫大家真正接受它的世界观,历史上没有过。
我们应该尽可能让每一个人都按照自己习惯的方式去做事情,从小事情开始做、从细节开始做。一个好的知识系统,应该是可以被自然地增长的,是可以容忍差异的。不要让每一个人都去追求特别的整洁,通常这种整洁只是一个人的世界观,如果强求大家在一起做是做不成的。
我曾经反复问我自己为什么以前的那些项目会失败,很重要的一个原因就大家太强调一致。比如分类树,一个概念应如何与另外一个概念结合到一起,大家争论很多次,其实是很没有必要的。如果能够设计容忍差异,快速的进行推进,才是项目成败的关键。我们现在在做金融知识图谱也是一样的。
现实应用中的经验教训
教训很多很多,但最核心的一件事情,就是要做小事情。
知识图谱技术的应用其实是一个很难的事情,和历史上可能所有的很难的事情一样,它一定从小事情开始做起来的,不能一下做一个很大的事情。
“明星不愿意做小事,小事不需要明星,所以他们都死了。”
我们之前看到了很多公司,这些公司有明星的CEO、COO,明星的工程师、科学家,再加上明星的投资机构,再配上各种高逼格的发布会、路演和宣讲……但这样的公司绝大多数几年之内都失败了,因为明星的成本是非常高的,高运营成本决定了他们就没有办法去做小事情,因为小事情只能挣很少的钱,所以明星没有办法做,最后他们都死了。
在语义建模和后来的知识图谱的实践当中,我们看到了太多太多公司,可能有几百个这样的公司,不是每一个都是明星璀璨,但是基本上明星璀璨的公司都过得不太好,反而是那些低调的公司过得还可以,之前也有很多例子,这里列了几条。
一个例子:Twine——做知识图谱的小公司如何死掉的?
- 做知识图谱这种小公司最重要的事情就是不要做大事情,要做小事情,而且一步只做一件小事情;
- 不要教条,不要说我们必须要用某一种特定的技术,因为我们要解决的是问题。知识图谱语义网是一堆问题,而不是一些教条的技术,我们只要能够用技术。解决一个需求问题,就不要去迷信任何一种标准。
- 不要试图一步到位去发展技术,不管是数据库,还是NLP技术,或是RDF这种知识表现语言,要尽可能去演化。
- 没有什么好的东西,一下子就能够被设计出来的,一定是从实践当中去总结出来的东西,循序渐进的东西,演化出来的东西才是好东西。
知识图谱是以“人”为本
知识图谱能够发展好,不要从机器的角度思考问题,一定从人的角度思考问题。
发表回复