互联世界的记忆

 我今天说的事情和我们现在做的事情,没有直接的关系。我先自我介绍一下,我在美国待了15年时间,一直在做人工智能各个领域的研究。我们整个创始团队的核心人员都是从美国回来的,每个人都放弃了很多很多。之所以他们愿意回来,就是因为我们会去做一些非常非常有趣的事情,未知的事,这才是我们最终想做的事情,我们的终极愿景:互联世界的记忆。

从基因到文因

 

 

我们公司的名字,叫文因互联,文因+互联。什么是文因?这有两本书,第一本书是《自私的基因》,英国的一个生物学家理查德·道金斯写的,1976年出版的,非常有影响的一本书。他提出来一个概念叫文因,就是Meme(发音“mi mu”)。后来又有人写了一本《自私的模因》。在中文世界里,我请教了一些翻译家,有人提出了“文因”的翻译,我觉得比“模因”翻译更好一点,所以我就用了这个翻译。


什么叫文因?它是针对基因的。因为在生物进化中,一个生物进化的片断叫做基因,相对应地,在文化的进化当中,一个文化的变化的片断就叫做文因。《论语》说“有朋自远方来不亦乐乎?”两千多年了,我们一代一代传下去。《论语》里面的一段话,其实就是一段文因。我们今天在网络上发微博,140个字,也是一个文因。

文因是一个可以被进化的,可以被遗传的文化单元。万事万物,我们社会上各种各样的小碎片都是文因。比如说,“图样图森破”,下一句是什么?“上台拿衣服”。这幅画也是一个Meme(文因),而且跟刚才那个(《论语》)不一样。上面这个图,暴走漫画里的,实际上它本身又是其他两个Meme的合成,所以整个Meme,是由三个Meme组合在一起的,每一个Meme都有它的前身,一代一代来变化,然后混合。我们人类社会往前走,从轮子到电脑,所有的东西都是文因的进化。

《文化与进化》这本书是哈定写的。那个时候更多从社会学以及哲学角度思考这个问题,为什么文化的进化和生物的进化很像?后来道金斯在70年代提出了文因的概念。过去40年里又有很多理论,讨论两者的区别。其中有一个最重要的区别是:最近一万年来,我们人类在生理上没有什么变化,基因上虽然有一些很小的变化,但是大局基本上没有什么改变。但是文化上面,从旧石器时代到新石器时代,到农业时代,到工业时代,到信息时代,发生了非常快速的变化。

 

现代穴居人

这意味着什么?意味着我们的身体,现在还是旧石器时代的身体,包括大脑、认知能力都是旧石器时代的,但是现在面临着全新的信息时代的挑战。从身体上来讲,每个人都是不合格的,都是应该被淘汰掉的。所以我们每个人都是现代穴居人。推荐《人类简史》,非常好的一本书,从旧石器时代一直讲到现在。

现代人有糖尿病的问题。因为我们在草原上的时候,非常喜欢吃糖。如果抓到了高糖、高热量的东西,我们的身体就觉得它是好东西,不喜欢这种东西的人都死掉了,剩下来的全都是喜欢吃糖的。但是到了今天,我们有那么多食物可以吃,我们还是有同样的习惯,所以就会生病。

我们对于信息的处理能力也是一样的。认知心理学里有一个邓巴数,每个人能够有紧密关系的人只有150个,为什么?因为在草原上的时候,一个部落最多只有150个人嘛。到了今天,我们在社交网络上面进行统计,我们发现不管在Facebook上也好,还是在别的平台上也好,发生紧密接触的人还是不超过150个,这是大脑里面很基础的限制。包括我们阅读的速度,我们理解的速度,我们记忆的容量都是依然在旧石器时代。

 

甚至有时候,我们可能要把我们的级别再往下降降。我们大多数的决策是非理性的,这一点上有很多很多行为经济学和生理学,心理学,认知科学大量的研究。在底层,我们每一个人都是一个蜥蜴,我们是被激素控制住的。这是另外一本书《进化的大脑》,我们的大脑设计,虽然从宏观上来说非常高效,只用20瓦的功率就能够做复杂的运算。但是掰开来看,其实它里面非常不合理,因为它是进化出来的,不是设计出来的。我们人类大脑掰开来看,里面是一层一层进化起来的,在爬行动物脑上面一层哺乳动物的脑,然后是灵长类的脑,最后是人的。

这是另外一本书《思考,快与慢》,两位诺贝尔奖获得者写的,他们研究行为经济学。右边这些是我自己总结的,我们在进行判断的时候,实际上我们是非常想去偷懒的。人的思考认知系统是在进化过程中形成的,最低能耗的系统是蜥蜴的系统。我们从早上到晚上做判断过程中,这套蜥蜴的系统是起到最主要作用的。比如《思考,快与慢》里说法官判犯人假释批准的时候,最重要的因素是什么?他发现这个因素是这个法官有没有吃饭,吃饭之前和吃饭之后,这个特征最明显。比如说你跑步了没有,喝了橘子汁没有,都有影响。

从爬行动物系统到语言系统,到符号系统,到科学系统,每一个系统比前一个系统都需要更多的能量,都需要大量的训练,都需要反人性的、反社会的去进行思考,大多数人做不到,也意味着大多数人的认知能力还是停留在很遥远的过去。

 

记忆的外化

其中一部分就是我们的记忆能力,我们人脑中有一个很重要的器官是海马,海马出问题,人会容易忘东西。

柏拉图说,书写会使人健忘,因为他们将不再使用记忆。这是《信息简史》第一章说的一句话,因为在这之前,希腊文明在中间有一个断档。在断档期,他们没有文字了,在这个期间兴起了《荷马史诗》,游吟诗人要把这样一本书以诗的形式,记在大脑里面。后来随着希腊文明复兴,又重新发明了文字,这个背景下,柏拉图说了这句话,这是他的担心。他觉得以前没有文字的时候,我们要把东西都记在脑子里面,现在我们偷懒,我们把这东西放在文字里面,大脑就不去记忆了。他很担心这个事情,但是现在他的担心是完全多余的。

 

同样的事情发生在现在,只是不一样的形式而已。在我上大学的时候,上网是一个贬义词,父母不愿意让我们上网,其实非常有道理。这是2011年发表在《Science》杂志上的文章,被称为“谷歌效应”,科学家做了一种试验,如果告诉受试对象,这个信息在其他地方可以找到,受试对象就不愿意记住这个东西,反正以后能找到,就不会记住它。如果我知道东西在谷歌上能找到,就记一点小小的记忆存根就够了。这跟柏拉图说的完全一样。如果我们有了外存,我们会尽可能地降低使用内存。

 

这个xkcd漫画是说维基百科宕机的时候,我的智商下降了30个点。我们现在和网络已经完全不可分了。刚才我看到,听课的时候很多人在玩手机,这都是非常正常的。因为手机网络就是我们的一部分,我们现在每个人都在把蛋白质的部分和硅的部分联系在一起。所以看手机的时候,是跟另外一个我讲话而已,没有什么不对的。

本该如此!

因为我们作为一个旧石器时代的人,我们这样的身体,我们要适应新时代的挑战,我们不再可能仅用蛋白质做到这一点,我们必须利用硅,必须利用信息和网络。

 

记忆的多级缓存

我们看硅,这是一个CPU的设计,里面有很大一块是缓存。所以CPU能够运行好,不是把所有东西都放在寄存器,必须把一些东西放在缓存里,缓存越多,效果越好。而且是很多级的缓存,从寄存器、一级缓存、二级缓存,然后到内存、到外存,还有网络。我们人类将来的记忆也一定是这样子的。我们不可能永远只用神经元来记忆,我们必然要用多种记忆的缓存实现记忆的外化。

现在有搜索引擎,有百科,这是全球大脑,在这中间还有缺失的一环,这就是文因互联要做的事情:个人辅助记忆,为每个人创造一个第二大脑,帮助你记你自己记不住的东西。我们有神经元的记忆,再有文因互联的辅助记忆,然后是搜索引擎和百科,和整个数字世界。这是我们能记住的所有的东西。

 

数字记忆的作用

如果有了记忆的辅助,我们能做什么现在不能做的事情?或者有什么神奇的东西会产生出来?


第一,可以解放我们的工作记忆。米勒法则说我们同时能够跟踪或者记住的东西是7个。比如说电话号码,7位,最多8位电话号码能记住,但是12位电话号码,大部分人就记不住了。我们现在只有一个大脑里面非常微弱的工作记忆,如果有了外存之后,我们可以做很多事情。证券公司交易员,为什么前面放5台显示器?因为那是5个工作记忆。以后要让每个人都能享受到这一点。

第二,把主动记忆变成被动记忆。什么叫主动记忆?背诗,“鹅鹅鹅,白毛浮绿水”,这个是主动记忆,我记得这个事情。但是其他长一点的诗,就记不住了,但是我看到的时候,知道我以前见到过这首诗,这是被动记忆。被动记忆我模模糊糊地记得这个东西,我见过,但是写不出来。背英语单词,很多单词我认得,但是写不出来。如果有了外存之后,可以极大的扩充我们的记忆,因为产生主动记忆非常困难,但是要产生被动记忆要容易很多。

第三,变短期记忆为长期记忆。我们生活中见过的大多数的事情,转眼就忘了,我们是穴居人,记不住那么多东西。但是短期记忆中有大量的是非常宝贵的东西,如果把尽可能多的短期记忆变成长期的外在记忆,其中的商业价值、个人价值,会变得非常重要。

最后一点,从死记硬背到机器辅助的关联和推理。这是在心理学和认知科学里的一条原则,recognition优于recall。Recognition就是识别,比如说我们看东西,看它的上下文,看与它相关的其他的东西,我们就更容易发现它。如果就是死记硬背地去想字怎么写、诗怎么背,那是很困难的。机器可以帮助我们进行关联和推理,通过机器的关联和推理,更好地产生一种记忆。京东上有好多记忆术的书,这就是一种方法论,这种方法论是应该用机器帮助我们实现的,而不仅仅是通过训练。让每一个人都能获得。

 


这个往后,是我以前研究过的另外一个学科叫做网络扩展的心智,往后走有很多哲学和计算机科学的东西,这里就不详细说了,只介绍一下这本书的名字,《The Extended Mind》,可惜还没有中文版。

 

总结一下到目前为止所说的。我们主动地遗忘了一些事情,就像《荷马史诗》记不住了,但是我们得到一些廉价的替代,比如书写,比如数字记忆。有了廉价记忆之后,才能降低整个认知的成本,然后发生什么事情?当我们有了文字的时候,谁也想不到,发明文字的人也想不到,后来会有逻辑,会有数学,会有一系列的整个符号的思维方式。没有文字就不会有数学,就不会有金字塔,就不会有其他任何东西,往后所有的东西。所以数字记忆会产生什么?这是个问号,我们不知道,这是值得我们探索的东西。

 

科幻,还是工程?

这件事情到底是科幻还是工程?是我们现在要做的事情,还是20年或者100年之后才能做的事情?在我看来这是工程,这不是科幻。刚才说到的这些事情都是用现有的科技水准,现有的工程能力,有限的预算之下,我们就可以完成的。

这本书叫《全面回忆》,他们是微软的一个项目,叫MyLifeBits,试图记录一个人整个的生活,他看到的东西,在这个基础上,他们开发了一套检索的方式。什么样的部门对这个东西感兴趣? (听众:特工。)对,国防部门对这个东西特别感兴趣。还有商业部门,还有个人知识管理,还有企业知识管理,都对这个东西非常感兴趣。

 

另外一本书叫《Pull》,中文翻译叫《WEB3.0》,它提出来一个概念,叫个人数据仓库,Personal Data Locker。它的基本的思想也是和刚才那个项目一样,从生到死,把一个人的个人记录的数据放在云上,在这个上面可以发现很多商业的机会,这本书就在讲我们会发现什么样的机会。

这是个人助理Siri,这个项目的前身是做情报分析的CALO,大多数用到的技术和刚才讲的非常像,现在已经走到千家万户了。

最后讲的是一个大的框架,就是Siri这个项目本身,是由语义网技术的发展才兴起的。右上角这个人Tim Berners-Lee,也就是Web的发明人,2001年的时候,他写了这篇文章,叫做The Semantic Web,他表述了一个前景,你知道的一部分知识,可以被一个软件代理代替,帮助你进行规划,它可以帮你节约很多时间,做个人做不了的事情。

 

这里面用了很多底层技术,知识提取、知识存储、知识表现和知识检索,每一块都有非常丰富的技术内涵在里面。我们大量使用这些方法解决金融方面的问题。我在Github有一个提纲叫Lean Semantic Web,列了大概有四五十项技术,有兴趣的话,大家可以看一看。

https://github.com/baojie/leansemanticweb/blob/master/Syllabus.md

 

社会机器的兴起

下面就是一些更开脑洞的联想。刚才提到数字记忆会产生什么?是一个问号。目前没有人真正知道会产生什么。就好象印刷术刚刚被发明出来的时候,谁也不知道它会摧毁教士阶层。数字记忆会带来什么样的变化?

 

有一点可以比现在做得更好,把我们的个人记忆变成集体的记忆。因为我们人和人之间讲话的时候,我们这个通讯渠道是非常非常受限的,只有几个比特,非常非常慢。但是机器可以几兆、几太的速度,比我们快成千上万倍。当我们的记忆被外部化的时候,这些软件之间通讯比我们直接通讯有效得多。我们可以把我们的个人记忆慢慢输入到机器里去。这种机器的记忆可以是同时的,形成一个社区,也可以是异时的,在一代人和另一代人之间,在老师和学生之间,在不同的商业机构之间,发生记忆的转移,知识的转移。

这是另外一本书《想象的共同体》。当有一种新的通信方式的时候,我们就会产生一种新的社群组织。当我们有一种非常快速的通信方式的时候,这个社会的组织会发生变化。我们不知道是什么样的变化,但一定会发生变化,包括家庭,包括公司,包括学校,甚至国家都会不一样。

 

这个前景,也是这两个人,Jim Hendler和Tim Berners-Lee,我博士后期间的两位导师,他们有一些前瞻性的研究,他们把这个理论叫做Social Machine(社会机器),目前已经是一个比较大的研究方向。他们认为,机器和人一起构造出一个新东西,机器能在这里面做一些琐事,人做一些有创造性的工作。20年前Tim Berners-Lee就在研究这个东西,过去十几年,他一直在不断地推进Social Machine。

 

在文因互联做有趣的事

未来是什么?也许是“美丽新世界”,也许是更美好的世界,我们不知道是什么样的,因为我们不知道才做这个事情。这是一个非常有趣的事情,这是推动我们创业最重要的好奇心。

文因互联就是这样一个充满好奇的地方。今天我们在做金融的应用,我们把各种技术用到投资决策中去。未来也许我们做个人记忆的助手,也许是宇宙飞船,也许做其他不知道的事情。这就是我们做的事情,谢谢大家!

One thought on “互联世界的记忆

发表评论