在文因互联2017年1月7日举办的第21期智能金融沙龙中,我们邀请到了北京知珠传媒科技有限公司创始人CEO郝庆一,和大家分享面对海量数据和信息,如何通过可视化寻找早期投研机会,洞悉金融资本的背后决策逻辑。下面是分享的现场实录,以供业界人士共同探讨。
我们从2016年开始做可视化在投研中的应用,其实也经过两三年的摸索和思考,但都是很浅的。所以今天在文因互联举办的智能金融沙龙上,我把我们思考成熟的一些东西,甚至思考不成熟的都拿出来分享一下,抛砖引玉,和大家一起探索更多的可能性。
这次主要从三个方面来聊,
- 第一部分:可视化和可视分析。
- 第二部分:美国公司Quid。
- 第三部分:和大家汇报我们这一段时间做的工作。
第一部分:可视化和可视分析
提起可视化,其实大家脑海中最先想到的应该是类似下面左边这样的报表,或者是一些信息图。下面右边的图就是一个典型的信息图,它把一些事件或一些很有意思的事情,很形象地画出来,然后达到很有趣的传播效果。但是可视化是不是就是这些?
1. 什么是可视化?
可视化(Visualization)对事物建立心理模型(mental model)或者心理图像(mental image)。
这是学术领域对可视化的一个大概的定义。
可视化实际上可以理解成两端:一端是数据和信息,另外一端是可视化的各种元素。可视化的各种元素包括形状、位置、颜色、大小等,还有其他更多元素,那么我们需要把数据信息和可视化元素构成一个映射,这样的过程就算是一个可视化的过程。
我们可以从抽象和形象在横轴上对一些可视化进行划分。比如说最左边,我们可以认为这是一个形象的可视化,然后这是很具代表性的科学可视化,上面是流场(Flow Field)的可视化,下面是生物医学方面的可视化。科研人员在研究过程中,面对大量的流场数据或者生物数据,没有办法形成一个很形象的认知。但是可视化就能够帮助他们,通过视觉去传达出流场的数据、生物的数据,然后帮助他们在整个科研过程中进行更好的探索。
现在再回到数据和信息这方面。我们现在面临的是一个很碎片化的信息环境。无论你想了解行业,还是想了解学术,通过搜索引擎或者其他各种公开信息,你看到的将是什么呢?新闻、评论、报道、报告文本、文献文本、专利,这些都是碎片化的分布。我想我们可以通过可视分析这种手段,在一定程度上解决这样的情况,让大家可以掌握这些公开信息。
2. 可视分析
下面这本书实际上是2005年出版的。这本书标志了可视分析作为一个学科的真正开端。当然这本书是在恐怖袭击这样一个背景下,由美国提出来的,所以说可视分析跟情报是有天然的紧密的耦合的,然后这个是学术界给可视分析的一个大大致概念。
可视分析,是由交互可视界面支持和分析推理的科学。
应该怎么理解可视分析呢?可能看这个定义,很难想象出来这是什么。从这几个方面,一个从数据,就可视分析所要帮助用户掌握的数据是什么样子的,这是一个海量、动态、模糊,甚至相互冲突的数据,同时更是异构的数据。首先结构化的、半结构化的,甚至非结构化的数据,这样的异构,同时从来源上排斥异构。文献是一种来源,专利是一种来源,社会网络是一种来源,新闻报道是一种来源。这些异构的数据和海量的数据,怎么样让用户去把握,或者探寻其中的一些问题,是可视分析系统所要解决的一个问题。它希望让人们去达到什么样的目的?就是发现我们知道我们不知道的信息,同时发现我们不知道我们不知道的信息。要达到个目的,需要在数据层面上和分析与展现层面上做到能够即时反馈用户的意图。
来看下面的这张图,给大家解释一下前两个可视化系统:
第一个可视化系统,是360和北京大学的袁晓如老师构建的手机基站的一个可视分析系统。他们的数据就是手机基站中发送的文本信息,然后它的活跃程度,地理位置信息,时间因素,然后他们构建这样的系统是为了什么呢?是为了发现一些伪基站,也就是每天给大家手机上发送垃圾短信的伪基站。他们构建了这样一个可视分析的系统,然后把后面的一些异构的数据,和人结合起来,让人可以借此寻找这些基站发送内容方面的,或时间活跃度方面的一些规律,然后去寻找这些伪基站的踪迹。他们通过这个系统,找到了一些伪基站,并且协助警方成功破获了一些案件。
第二个可视化系统,是交通数据的一个可视分析系统。这个系统把交通流量、位置、信息、时间放在这样一个界面上,用户可以通过多维度去察看,这样可以让交通部门的政策制定者,首先要了解整个交通状况,然后重点关注一些经常产生拥堵或问题的故障。
可以再从更现实或更本质的意义上去理解一下。我们想要做的可视分析系统是什么意思?就是在很多情况下,人们试图去理解周边的新生事物,这就是一种信息行为。那么,这个信息行为大概是什么过程?人们需要对周围的信息进行收集、整理、综合、评估,然后再根据先验的知识,将这些收集到的信息,重新构建新的更新的知识。这样一个过程,就是用可视分析的方法将整个过程构建起来,以可视化的形式构建起来,然后让用户可以进行数据收集整理、数据清洗。然后涉及到数据用什么样的方法进行分析,分析出来的结果怎么样去呈现,构建出这样一个系统,然后让用户不断地去迭代,最终做出一些新的发现。实际上是这样一个本质的行为。
在这样的行为当中,其实最具挑战性的是什么呢?是不确定性。我们区别于数据挖掘很大的一个特点,就是我们面对了很多不确定性。
首先,是数据的不确定性。因为在探寻一个新问题的时候,你不知道要收集多少数据才算足够,也不知道收集来的数据到底是什么样的质量。
其次,是分析方法的不确定性。其实你不知道用什么样的分析方法,才能够得出来想要的结果,或者你应该得出来的结论。但是我们可以去准备一些方法让用户使用。
最后,是结果的不确定性。就是你用这些不确定的数据、不确定的方法,实际上你也不知道结果是什么。所以这是一个迭代的循环,而不是一个一次性做出来的。其实从这个角度讲,比如我们构建这样一个可视分析系统,它可以帮助人们认知信息,或者说进行知识认知的这样一个系统。所以说从这个角度上讲,我们可以这样来理解可视分析。
上图是波普尔的三个世界理论,为什么我把这些放在这儿?因为利用这些理论能把碎片化信息组合起来进行分析。首先需要从世界观上先说明一下,波普尔的三个世界就是:物质世界、人的精神世界和客观世界。物质世界就是那些物质的东西;人的精神世界就是你的思想、你的情感,理性的和非理性的;然后作用于第一世界,形成客观知识世界,就是各种理论、各种概念,或者说知识。其实刚才说的那些嘈杂的、碎片的信息里面,蕴含的都是知识。他们实际上就是可观知识世界中的重要组成部分,包括论文、专利、新闻报道、评论、社交网络上的一些信息,这些都是客观知识世界。那么我们现在是想用一些方法去对他们分析,然后再作用于物质世界,更好地认识和改变物质世界。其实我们怎么自由操作那些非结构化的数据,这就是鲍捷老师提到的,数据从非结构化到语义网这样纯净的数据过程。
在这个过程当中,我们需要对整个数据进行纯净化,在这个过程中还需要运用各种方法。首先只用人力是肯定达不到的,那就要考虑人和机器进行结合起来用。下面这张图实际上就是知识表示或者知识表现在不同领域研究的问题。通过这一张图,应该就能够得到一些结论。心理学大概在讲个体的生理和心理与知识的关系,这个是教育技术领域的知识可视化。其实思维导图,或者知识地图,就应该放在这个领域,用于人和人之间利用形象化的形式进行知识表现,从而达到知识流动。右上角是计算机领域的知识表示,这是什么意思呢?我们可以把它理解成语义网之类的事物,人们怎么样让机器理解知识。其实,教育技术领域的知识表示是可视化的部分,计算机领域的知识表示就是数据的部分。我们在可视化和数据之间构建一个桥梁,就是让一个可视分析系统,然后就能够把人和机器以及知识结合起来,让他们去做一些更多更自由的探索。
下图是在2016年9月中国可视化大会上,袁晓如老师和陈为老师对可视化和可视分析方面提出的一些趋势和挑战。我们其实最关注的是几点:
- 一个是可视化的方法、工具、系统的复用。我们构建一个抽象的表达可视分析系统,希望它能够适用于大多数的文本分析,或者说情报分析。
- 然后是支持众包的可视化。在一些可视分析系统,我们希望能够把人对于数据和分析方法的贡献,直接纳入到系统的循环当中。
- 还有虚拟现实或者说混合现实,跟分析的一种交融。但是,现在业界、学术界其实对于这个点,并不是特别支持,为什么呢?因为很多分析方法和工具,还停留在统计图表上。那么基于这样的统计图表,如果在三维空间中进行展示的话,会产生视觉的各种误差。下图右边是陈为老师提出的,在整个大数据和机器智能的环节上,其实都是可以将可视化结合进去的,从数据的获取,到数据的清洗,然后到建模、分析、到仿真。
第二部分:美国的公司Quid
下面简单介绍一下 美国公司Quid,这家公司在2015年进行了D轮融资。他们把非结构化数据,转变为结构化数据。但实际上他们是走完了整个流程的,也就是从数据,从非结构化数据到结构化数据,再到分析方法,再到可视化方面,他们是一条线贯穿下来的。所以说他们的产品是一个综合的产品。
媒体称 Quid 是一家量化分析公司。因为他们把那些无法量化的文本信息或者碎片化的东西,量化出来了。他们的数据源包括新闻、公司信息、专利,以及用户评论、报告,类似这样的非结构化数据。他们把这些非结构化数据中涉及到的原数据都抽取出来。例如新闻数据,然后他们会把标题、来源、时间、地点、分享数量等等这样的信息都抽取出来。抽取出来之后,他们再去构建碎片化信息的体系网,他们用复杂网络的方法把这些碎片化的信息构建起来。然后加以初步分析,或者说聚类,然后给用户全局的把握。再去提供一些各种分析工具,让用户基于这个内容去做更多的探查。
对于可视化,我们首先需要做的事情是:对标签进行优化。因为我们拿到标签,很多时候没有太大意义。不同的公司标签质量不太一样,然后我们需要综合各种手段,提高标签质量。但是整个从公司再到这个图,再到这个划分,这些基本上都是算法弄出来的。但是我们跟一些分析者去沟通的时候发现,他们心目中已经有一个大概逻辑思维。这是机器做出来的,当然你了解金融领域的创业公司,你觉得是这样。但是如果你不了解金融领域的创业公司,或者说你了解金融领域创业公司的情况,但不了解新闻报道的情况,不了解专利的情况,不了解文献的情况,那么用同样的方法,都能够给你一个体系化的东西。所以说可视化的价值在于这里。根据体系化的结果,不管是时间上的,还是数量上的,不管进行一个简单的排名也好,还是其他的一些查看也好,都是希望用户通过一些方法,有一些发现。
关于范式,我们来简单地说一下。科学范式大家可以理解成科学框架。在这个框架下,或者说在某一个大家认同的一些方法组成的框架下,科学研究中发现的一些问题是这个科学框架解决不了的。可能就会有一些人叛逃出已有的科学框架,去做一些新的尝试。引文分析实际上就是在用一些文献计量学的方法,对科学范式的转移进行一些描绘。这些其实都是一些很成熟的方法。当时我们就希望用这种方法平移到行业里面,去做一些分析。但实际上我们发现,不仅科学有范式,技术也有范式,技术经济也有范式。技术经济范式大家可以理解成一系列相关的技术和组织原则。在现有的技术经济范式下,对产业的生产效率进行提升。之后,技术经济范式的潜力会逐步被挖掘出来。比如说到达一定程度之后,效率提升就没有多少了,这时候就会有一些人叛逃出现有的技术经济范式,去做一些新的尝试。这实际上就是创业者在做的事情,他们希望寻找新的可能性来提高产业的生产效率,然后谋取更大的利益。在这个过程当中,实际上金融资本也扮演了一个叛逃者的角色,它从已有的经济范式中叛逃出来,去支持新的可能性。当然这些可能性很多都是在试错,但是最终会有一些存活下来,并且真正成为了下一个技术经济范式。实际上,我们现在从时间点上来看,我们现在这样一个状态,基本上也是一个技术经济范式转移的时期。从一些很简单的现象可以看到,大量的公司合并、收购,就是2015年到2016年大部分的公司合并。这个应该是大家有感触的。
还有很多资本都在说要走出去,要出海。出海其实是一个技术经济范式在本国或者本地,发展到一定程度之后需要向外扩散。也就是发展到一定程度,成熟了之后,要向外扩散去寻找更多的利润,这样的一个现象。所以说,其实我们认为,现在也是到了一个范式革命的时期。那些方法我们是不是要做一些尝试,刚才那个是创业公司图谱,下面的图表是创业构思和投资公司的投融资关系图谱。红色的节点是创业公司,绿色的节点是投资公司,他们以投融资关系相互连接,构成了这个网络。然后随着时间的变化,这个网络不断生长。我们希望能够在这样一个生长演化的过程中,寻找到一些东西,然后帮助用户对这些范式的中长期变化作出判断。所以我们做了一个很简单的东西,在网络演化的过程中,不管创业公司也好,还是投资公司也好,我们对他们进行排序,每个年份得有排序。这样的话,这些创业公司就有了一个排名表。这张表其实包含了一些趋势,一开始金融领域的创业公司,有可能排名在逐渐往下走,有一些是起来的很快,这是创业公司。
下面这张表是投资公司的排列变化。有一些投资公司在金融领域的重要程度一直在下降。有的开始投了一些,后来就不怎么投了。但是有一些公司处在一个波动,然后上升的状态。在座大家如果是分析师本身,可能对这个并不是特别关注,但是对创业公司的排名变化,分析师有可能更关心,因为这个排名的变化在一定程度上,表明了投资热点的转换。我们现在在尝试一些可视化的方法,把排名变化展现出来。我们还在做基于投融资网络的一些链路预测方面的工作,网络在发展的过程当中,有一些算法能够对网络的发展进行预测,可以预测边的缺失。也就是说这个网络,比如到2016年7月份截止,我们用链路预测发现一些缺失的边。那么这些缺失的边有可能是什么呢?是公开信息中没有公开的投融资事件,或者未来有可能发生的投融资事件。当然现在数据量还不是很多,所以预测结果不一定很可靠。但我们认为这是一种可能性,新的创业公司进到这个网络里面,他们会和哪些投资公司发生关系?这个其实也是投融资或者分析者比较关心的,那么我们就可以做一个基于这个网络的类似推荐系统的东西。这样的话其实就是在对这个网络的演化方面,我们试图去做一些工作。
最后,和大家分享四本书。这四本书如果大家有时间、有兴趣的话可以看一下。第一本是介绍复杂性科学的入门读物,后面三本分别是在讲科学范式、技术范式和技术经济范式。最后一本书我觉得做分析或者做投资的话,都可以去看一看,因为它是在一个宏观的尺度上,去讲金融和产业资本的这种互动,在技术范式不断变化的过程当中,他们是怎么样去互动的,然后这对投资来讲,或者说分析来讲,是会有一定的启发的。
发表回复