知识图谱在股权投资领域的尝试

本文整理自因果树创始合伙人滕放在杭州金融知识图谱论坛上的演讲。

今天非常感谢大家来到浙大参加这个沙龙。首先我要感谢的是中文信息学会,能够让我们企业有这么一个平台跟大家交流;第二感谢的是浙江大学;最后感谢的是文因互联的鲍总。我们同业者能够聚在一起真的非常难得。我今天讲的是我的视角,跟各位专家不太一样。我们作为创业者,内心深处最大的愿望,是能够把我的企业做得更快、更好。所以今天我给大家分享的视角,是如何用技术来提高我们企业自身的、未来的竞争力。因为在过去大概十几年的经验里,我一直是在科技公司里面,但我对技术的理解是,技术绝对不是企业成功的最重要因素,技术可能占企业成功因素的 40%,剩下 60% 就在于如何利用技术找到相应的业务场景,让技术和业务相结合。你要有一个中间把控技术的进度。所以从这个方向给大家分享一下,我们因果树在过去两年多都做了什么事,以及为什么做这些事。

首先智能投顾是一个非常大的市场,可能比我们想象得都要大。我听到不同的数据,有人说是 5 万亿,我用的 2 万亿美金这个数据(到 2020 年),这是一个非常大的市场。这个市场大到什么程度呢?我认为它可以颠覆现有的一些金融上的理论。本身我也是学金融的,大家都知道非常传统的金融理论里面的 DCF(Discounted Cash Flow),Golden Model,但是这些 Golden Model 都是基于现金流的,而我们现在在尝试一些东西,尤其是对创投企业的估值。比如说我们开始用单用户的价值折现,或者其他方式的折现来估算企业的价值。这种计算方法颠覆了原来传统应用现金流,用 net income 计算企业估值的金融理论,所以它是个非常非常大的创新。

我感到非常幸运。

第一个幸运在于生活在这个时代。不知道大家怎么看待,我的判断是整个国家在经历一场创业。我们的经济模式从以前的出口、投资到消费,在转入一个新的模式,新的模式来自于哪儿,就来自于创业、创新、新的科技、新的商业模式,这些模式一旦被市场验证之后,会被现在大量的企业吸收到体内,成为现有企业的一部分,所以这个是第一个感到很幸运的地方。

第二个幸运的地方在于,我们找到了一个比较好的方法。过去两年中,我们一直试图在用数据的方式解决风险投资市场的信息不对称问题,尝试了各种不同的方法。最终我们认为用数据、用知识图谱来解决这个信息的不对称,包括一些知识的重构,知识的推理,这是解决这个市场,现在的信息不对称的一个的方案。

第三个感到很幸运的就是我最底下的这一句话。我不知道大家怎么理解,因为我们在座的几位同仁,都在做的一件事就是打破信息的不对称。而所有的金融机构都是在想尽办法保持信息不对称。这既是我们的一个机会也是一个挑战,所以我认为未来类似我们这样的企业不是太多,而是太少了。因为每一个金融机构,都需要一个像我们这样的企业为他们提供服务,因为金融机构的本质就是要控制信息,保持信息不对称。

 

这是一幅图,谈到智能投顾的时候,有非常多 confusion 的地方,我们希望借这一幅图给大家分享一下我们的看法。

这里面我省了一个维度,首先大家知道投资分为股权投资和债权投资。咱们国民社会融资总额里面,95% 都是债权类投资。债权类投资不是我们做的方向,因为债权类投资的思维方式和股权投资完全不一样。简单讲,一个是向下看,一个是向上看。债权投资担心的是你会不会往下走,能不能付本息,你往上怎么走都没有关系,而股权投资在意的是你能不能往上走,所以我们是往上看。

第二个维度是做一级市场还是二级市场。一级市场和二级市场的打法完全不一样,二级市场的信息非常公开,有各种研报、公告、新闻、数据,而一级市场的信息非常闭塞,而且内容也不一样,所以在这里面用的方法完全不一样。

第三个维度是做资金端还是做资本端。因为我看到很多的企业,所谓做智能投顾都是在往资金端走,就是找到那些个体的投资人。我认为这种机会是在大平台上,比如像蚂蚁、京东、百度或者其他的地方,比如券商的大平台。他们有现有的流量、用户,适合做资金端的有投入的产品。而资产端是我们做的左上角,就是所谓一级市场资产端,是我们因果树给自己的定位。

我们现在做的这件事怎么样?我认为我们现在做的这件事,内心深处还是被人看不起的阶段。经常会问,你的数据准不准?我经常是花一个小时给人介绍完了我们的产品之后,他还问我,数据源在哪里,到底准不准。但这是一个必经的阶段,所以我希望和更多的企业同仁一起参与这样的会议,让外界慢慢地看到这一场颠覆式创新。

 

几个思考

 

在谈论具体的知识图谱之前,先谈谈这几个思考,也是基于创业者的思考。因为我的想法,最主要的还是要让企业能活,并且能够活得好。

第一个思考是做一级市场还是二级市场。这里面核心在于如何验证你的模型,如何验证你的数据。二级市场相对好验证一些,因为可以通过实时报价,实时具体的操作来验证,而一级市场是很难做验证的,这是关于一级市场、二级市场的思考。

第二个思考是做工具还是做交易。这个其实我们之前也有很多尝试,做工具面临的问题是产业链很长,从做数据到交易到完成到投后,流水线非常长。另外一个是做交易,对接投融资双方做交易类型的,这是两种不同的打法。

第三个思考就是做产品还是做项目。现在很多的大数据公司,包括在智能投顾领域,很多是以项目的方式提供服务。它没有具体的产品,只能按照别人的需求来开发一个项目,而这种方式是不能够快速复制的。

第四个就是到底是 2B 还是 2C。这是经常被大家问的一个问题。我认为在智能投顾领域, 2C 的只适合大的平台,而做这种资产端的,比较偏重于 2B。

第五个是要做一个专家系统还是真正的机器学习系统。我们认为,在现阶段专家系统还是必不可少的。因为这里面涉及到如何找到数据的使用场景,而现在的使用场景,很多还是依靠传统的专家来判断的,机器还是远远没有达到能够超越人类的地步。这其实也涉及到我们做这件事情的出发点到底是什么,是要超越人类,还是成为人类的伙伴,成为一个工具。

最后一个就是从短期目标到长期目标。说白了你怎么样去变现,怎么样去平衡你自己。做深度的技术上的研究,是有很大的成本的,而你短期要有很多的现金,要有业务的流量,所以你怎么平衡这个。

知识图谱的价值

关于知识图谱价值,这是我个人的理解。不同于百度或者是谷歌的知识图谱,我们的知识图谱,是针对于一个垂直领域的知识体系的构建。所以从这个层面讲,它可以分成两个阶段。

第一个阶段我认为是 BI(Business Intelligence)的阶段。这个没有什么噱头,过去二三十年大家都在做这件事情。尽管如此,我们认为一级市场做的还是非常不完善,所以要想利用知识图谱做好一级市场的智能投顾,你要做的第一件事,是要把自己变成一个真正的大数据公司,如果不是一家大数据公司,你无法成为一个人工智能的公司。第二步是基于现有的 BI 体系,再叠加上各种机器学习的方法、自然语言的处理、实体的挖掘、知识的挖掘,找到一些突破。我认为比较现实的做法,是找到一些单点上的突破,你可能无法在全面的知识图谱上进行突破,先在一两个点上实现突破,就已经能够非常好的颠覆这个市场。所以我认为知识图谱的价值,是从 BI 到 AI 的提升。

 

知识图谱的实践

因果树过去两年一直在做知识图谱的工作。这些工作我们分成两个阶段,第一阶段就是知识库搭建和找到数据应用场景。其实这两块是非常非常难的地方,我们对这两块的定位,其实就是基于知识图谱的搜索和分析引擎。这里面要找到数据源,对结构化和非结构化的数据源进行整理和分析。当然最重要的还是要用这些数据去解决用户什么样的问题,这也是所有 2B 企业最大的挑战。我们要深入到用户的应用场景里面,在这个应用场景里面,重塑现有 B 端业务的一些场景,成为它的工具。这是第一阶段。

其实第一阶段,要纯粹用 BI 去做也可以。因为它没有涉及到知识的推理,只是用现有的专家体系,用自动化的方式,更快地找到信息、搜索信息、分析信息,对企业进行支持。这一块说白了,不用知识图谱也可以做。但是要让机器超越人,你必须得有一个知识的框架,来让机器去学习。所以这时候我们才开始把那种知识装入到一个框架里头,让机器不断地去学习,不断地去挖掘。这里面其实涉及到,不仅仅是自然语言处理的应用,还有很多机器学习、深度学习上的应用,比如说我们除了看企业自身的一些描述性的文字,还会看具体企业的一些信息,比如你的财务数据怎么样。这是第二阶段。

说到这儿,我跟大家再分享一下因果树过去两年所做的比较有意义的工作,看跟大家有没有进一步的合作的可能。

第一块我们在平台上收集了大概 50 万家创业企业的数据。这些数据分成大概四个类型。第一个类型是企业的基本数据,包括供应商、股东的数据,企业的描述性数据,企业的标签,这是比较基本的数据。第二块数据是我们通过跟运营商合作,把企业,尤其是互联网企业在网上的一些行为,不管是 APP 端的还是移动端的数据进行整理和分析。第三块数据是企业各种知识产权的数据,这个对判断科技型企业是非常有意义的。第四块数据是泛舆情的信息,比如说招聘、搜索热度、工资水平、人员流动,通过你的信息和一些数据,我们来判断企业的好与不好。

在维度上把数据分成了三个维度,第一个维度是对行业的划分,因为行业划分是一个大难题,我们把整个创投领域 TMT 分解成了 800 个细分子行业。第二个维度是对产业链的梳理。如果说行业的分类是横向的,产业链的分类就是纵向的。我们大概定义了几十个产业链的分类,所有的公司都可以按这两个维度进行统计。第三个维度是从公司到产品层面的数据梳理,很多情况下公司会有多个产品,尤其是大中型公司,他们会有很多的产品,他所在的行业和所在的产业链都非常不一样。我们把各种信息,按照这些维度进行统计,再用模型来判断企业好与不好。

最后,我们做知识图谱的目标也非常简单,就想做两件事,第一件事是判断一家企业是不是好的企业,尤其是创新型的企业,现在全国每天有一万五千家创业企业出现,判断这些企业,靠人力是无法完全覆盖的。第二个就是判断企业之间的相关性,到底哪个企业应该被哪家投资机构投,到底哪家企业应该被上市公司进行并购,到底哪家企业可以之间有相互合作的基础。这是我们做整个知识图谱的一个大的脉络。

 


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注