未来AI一定超越人类认知上限 | 第一财经数据科学50人·鲍捷

吴昊 第一财经 文因互联 2020-01-03

图片

鲍捷博士,文因互联联合创始人兼CEO,师从语义网之父James Hendler、万维网之父Tim Berners-Lee等大师,因为对科研商业落地的追求,鲍捷踏上了数据科学的创业之路。

知识图谱的本质是一种数据科学

初见鲍捷,一个典型的技术男形象,穿着一件印有各种计算机技术名词的套头衫,背着电脑,笑起来很具亲和力。
2013年,鲍捷和一众伙伴在硅谷创立了文因互联的前身Memect,从CTO到现在的CEO,是角色的变化,也是思维的变化,用他自己的话说,他从科学家思维转向工程师思维,再到架构师的思维,又转向产品经理思维,然后转变为一个组织者,现在天天想的是怎么“卖东西”。
美国是数据科学的发源地,对于一位长期在美国做科研的人来说,鲍捷对数据科学很熟悉。在鲍捷的印象里,数据科学一直都存在,以前只是统计和分析,只不过当时在美国有人用Excel做,有人选择写脚本,有人写程序来实现。如今,数据科学家兴起,这个职业的光谱也非常宽泛,从交互、BI(商业智能)到机器学习,只要是用数据来解决问题的都是广义上的数据科学家。

数据科学的兴起与如今海量的数据有直接关系。鲍捷解释,上世纪70年代之前是没有数据工程的,70年代开始有了第一代的数据库,然后缓慢普及,直到80年代,在一帮极客的推动下,电子表格兴起,从VisiCalc到LOTUS 1-2-3,再到现在Excel,电子表格越来越普惠和大众化,并且开始建立自己的电子表格语言,形成结构化数据。再之后电子表格也满足不了数据分析的需求了,“数据科学”应运而生。

(图片说明:电子表格发展历史 资料来源:The Data Labs)

“原本,我们只处理常规数据,随着21世纪互联网的兴起,数据越来越海量,比如90年代语义网运动,2010年之后的大数据运动。伴随着社交网络的出现,数据量暴增,企业内的数据也开始集成,同时,关联开放数据(Linked Open Data)与政府开放数据(Government Open Data)等运动,共同造就了一个大数据时代。”鲍捷说。
也正是海量数据的出现,才有了数据科学的极大发展。鲍捷研究的是“知识图谱”,在他的认知中,知识图谱本质就是关于“有智能的”数据的科学,只是其中的数据分为“死”数据和能够生成数据的“活”数据。
“如果把数据看成一个点,数据和数据之间有着众多的关联,如果我们拥有了某些特定的数据,我们就能推理和发现数据与数据之间的关系。能在数据之间建立新联系的数据,我们就称之为知识。”鲍捷解释道。
这种“能产生数据的数据”,就是知识。它是一种“结构化数据”,通过这些数据可以把一些常规的分析工作让机器自动完成。在这一点上,它和传统数据库的分析是不同的,它是尽量让智能体现在数据中,而不是代码中。
所以,知识图谱的本质就是研究怎么把智能直接保存为数据的一种科学。
起初,人类构建的知识用文字存储在网络中,典型的例子就是维基百科、百度百科等知识库,但早期能用到的信息非常有限。伴随着最近5年自然语言处理技术的发展,通过实体提取、关系提取等技术打造知识图谱,在金融、法律及医疗等特定场景上图片说明:电子表格发展历史 资料来源:The Data Labs)证明是可行的(达到工业级水平的容错)。
鲍捷补充道,在没有知识图谱之前,技术人员把知识写入程序之中,只能用知识编辑器,比如 CYC 公司从1984年开始手工构造知识库,成本极高。当知识越积越多时,这样的写入就非常不经济了,后来知识表示语言(Knowledge Representation)被发明出来,用以表达更为复杂的知识结构。最终,从知识表达中抽象出现的知识工程越发大众化,便形成了今天的知识图谱。

从师出名门到商业落地

1988年,还在上小学的鲍捷就对计算机有所了解。那时学校唯一的机房里,陈列的一台台电脑着实让他着迷。到了高中,鲍捷就成了班上的计算机课代表。
90年代,鲍捷考上了合肥工业大学,师从高隽教授(现任合工大学术委员会副主任、秘书长),开启了自己的计算机科学学术之旅。
合工大的电子工程背景为他打下了工程思维的基础。直到现在,当文因互联面试技术人员的时候,鲍捷都会守在最后一关,抛出一些工程类的问题,考验应聘者的工程思维能力。比如卷积神经网络背后的工程原理、边缘检测的原理等等。要想理解这些技术原理,必须有换个角度思考的能力,如理解“信息”、“频率”这些工程概念。
“计算机科学和电子科学都是研究信息,电子科学最初研究的是连续信号,计算机科学研究离散信号,但深入以后会发现两者有深刻的对应关系。我很感谢我的那段电子工程的教育背景,让我想明白了计算机科学的很多问题。”鲍捷说。
鲍捷之所以如此看中工程学,与当下人工智能的发展不无关系。人工智能在过去的60余年,经历了三起两落,而每一次人工智能获得的长足进步,都不是因为理论研究的质变,而是在逆境中融入了工程思维,用工程手段实现了突破。
鲍捷解释道:“比如推理机在90年代发展的停滞,决策树的算法难以突破等,最终,都是应用了包括剪枝原理等工程方式来解决的。”
合工大研究生毕业之后,鲍捷又陆续在衣阿华州立大学、伦斯勒理工学院完成了博士与博士后项目,并在麻省理工学院(MIT)完成了一年半的分布式信息组访问研究员的工作。高隽教授领他进入了计算机科学的研究之门,在衣阿华州立大学读博时的导师Vasant Honavar(现宾州州立大学教授)又让他进一步认识了什么是世界顶尖的学术研究。
初到美国的鲍捷接触了大量美国同专业学生,他觉得自己并没有比其他人懂得少。但Honavar教授多次带领鲍捷参与世界顶级学术会议,并将鲍捷送到NSF(美国国家科学基金会)的几个研讨圆桌会中,这让鲍捷领略了世界级的学术水平。Honava最终将鲍捷推荐给了“语义网之父” James Hendler。
鲍捷说,Hendler是一个有远见卓识的大宗师。如果说普通科学家看的是树上能否长出绿叶的话,Hendler关注的是如何让树抽出新枝,长出更多绿叶。
在伦斯勒理工学院做博士后研究员的鲍捷被Hendler推荐到了W3C(万维网联盟)的OWL(本体网络语言Ontology Web Language)工作组,与业界最顶级的科学研究者一起工作,这让鲍捷受益匪浅。
而其学术生涯的浓墨重彩还属为万维网之父、图灵奖得主Tim Berners-Lee工作的那几年。
在MIT的研究工作中,Tim Berners-Lee让鲍捷体会到什么是最顶尖的科学家——一个从哲学的层面,用上帝视角看待人类问题的“God”,并影响与颠覆了鲍捷的思维。
四段学术经历历练了鲍捷,而他更加感激的是四位“老板”都给了自己足够的空间与时间,去捣鼓自己的事儿。
“20多年来,我一直自己找方向,感谢几位老板给了很大的空间,我这个人又喜欢折腾,这些年的失败让自己融会贯通了很多事儿。” 鲍捷流露出学术生涯的真情实感。
“我不是一个循规蹈矩的人,一定要做一些事儿出来。”鲍捷曾与世界第一流的科学家一起工作,但却也曾有着无比的失落感,学术研究有些不食“商业”的烟火,也缺少了“工程”的落地,远离商业战场的鲍捷毅然决然走出象牙塔,进入了工业界,但这也是一条极为艰险的路。

(图片说明:养猫的鲍捷做团队内部培训)

鲍捷的创业方向依旧是“知识图谱”。这次他应用到了金融的场景中。
传统的金融领域处理的是表格数据,这是一种结构化的数据,但目前还有大量的非结构化数据需要被理解。文因互联做的就是把金融业的数据结构化,并通过自动化流程让机器处理,最终形成服务,并升级为开放化的服务。
鲍捷说,前两步是中台的后台化,把以前中台的业务用机器来实现,中台实现内部资源的调度。当资源能调度了,金融机构也将走向开放。业务前台的开放化,就能实现今天说的开放银行——从坐商升级为行商。未来的金融将会是由各种开放化服务互联起来的“开放调度系统”。
截至目前,文因互联正为交易所、众多头部银行、资管、证券等机构提供知识图谱的服务,应用在合规风控、信贷流程自动化、债券风险预警等多个场景。

社会机器:我们终将去探讨AI与人的关系

如果把这次系列专访当作一场长途旅行,也许它很慢,也许在每次停歇的时候,有分离,有相聚,但直到最后,带给你无穷回味的不是终点线的美景,而是对整个旅行的每个瞬间的记忆。
鲍捷说:“我小时候爱读书,最喜欢历史、生物,现在回头想想,历史、生物和计算机三者是通的。”
美国天文物理学家Max Tegmark在《生命3.0》一书中阐述了生命进化的三个阶段,在鲍捷看来,他能分出四个阶段——分子进化阶段、单细胞阶段、多细胞阶段、社会机器阶段。读完博士之后,鲍捷把社会机器(由鲍捷导师Hendler发明)这套进化思维想通了,并在之后一直指导着自己的工作与创业。
作为数据科学的重要体现,人工智能前些年的热度极高。伴随着当下资本的退潮与技术发展的瓶颈,AI寒冬论甚嚣尘上。
“从纯科学的角度,知识图谱在过去十五年没有任何进步,唯一的变化是工具发生了变化,成本越来越低;同时,深度学习在过去十五年其实也没有发生太大理论变化,发展的都是工具。这恰恰是一门学科走向实用的标志。”鲍捷说。就像中国伟大的高铁,是无数机械工程师和电气工程师的聪明才智的结晶,尽管力学和电学本身并没有大的发展。在他眼中,AI就如同一个摆钟,每20年一个周期,理性主义(知识图谱、专家系统)与经验主义(机器学习、神经网络)此起彼伏。
当下,越来越多人开始讨论神经主义的红利吃完了,鲍捷解释:“我自己做过神经网络,经历过低谷,十几年前把我们打入‘地狱’的东西还没有走。”在他看来,理论没有实际突破,那些他曾历经的神经网络的泛化、收敛以及速度等问题只是被工程的方法结合硬件算力升级和海量数据解决了,如果不和其它人工智能方法结合,我们依然有可能被再次打入“地狱”。
毫无疑问,AI是未来的一个大方向,也许在未来的三十年,AI依旧是辅助人类的工具。鲍捷认为,人类的记忆力(信息存储能力)很差,通信速率低下,人与人之间用几个比特的声波传递信息的效率并不高,“未来会有越来越多的机器帮助我们做中间的协作。”
鲍捷的导师James Hendler在其《社会机器》(Social Machines)一书中提出了社会机器的概念,鲍捷的思考亦是如此:现在社会是人组成的,人与人之间开始有机器协作,机器与机器之间构成一个网络。现在是互联网,我们慢慢会发现,人与人、人与机器、机器与机器都会形成网络,最终的社会机器,就是一个机器与机器连接,人为辅的一个新网络。
在面对AI与人类关系的思考中,大部分专家认为机器无法取代人类的原因是,机器只懂识别,没有人类的认知能力。而鲍捷认为,机器不会拥有人类意识的原因恰恰相反,是因为人的意识并不高级,未来的智能一定会超越人类的认知上限。社会机器将在总体上超越人类社会总体,而非单个个体层面超越。

数据科学50人成员

鲍捷博士,文因互联CEO,联合创始人。师从图灵奖获得者 Tim Berners-Lee 与 James A. Hendler两位知识图谱领域创始人,衣阿华州立大学博士、伦斯勒理工学院(RPI)博士后、MIT访问研究员。研究领域涵盖自然语言处理、语义网、机器学习和描述逻辑等。目前任中国中文信息学会语言与知识计算专委会委员,W3C顾问委员会委员,中国计算机学会会刊编委,中文开放知识图谱联盟(OpenKG)发起人之一。 


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注