2017年1月 – 文因互联

角色总结,而非职位招聘

by 西瓜 2017-01-26

我厂还是个非常小的团队,十几个人。最近想再扩充几个人,和每一个候选人,我都要解释一遍我们在招聘的时候其实没有“职位”,而是要总结一个“角色”。所以在这里把这个事再细说说。

文因互联的文化,一言以蔽之,就是“文因的互联”,也就是在每个人的知识的开放和互联中,保证组织的可演进性。我们常说,最好的事物都是总结出来的,不是计划出来的。我们要做的事情(金融的智能化),是一件很难的事情,是没有任何成功的先例可以抄的,所以只有通过反复的、科学的实验,千锤百炼之下,或有可能找到一个合理的执行路径。倘若没有这种快速演进的能力,是无法走向那个彼岸的。也许这不是一个普适的组织方式吧,但具体到这件事、这群人,可演进性确是第一重要的。

继续阅读 “角色总结,而非职位招聘”

创业就是演进

by 西瓜 2017-01-26

1)回国一年半。同期认识的,开始创业的,大部分都已经失败了。最常见的原因是团队结构、股权比例,其次是投资人和团队的矛盾,其次是产品和市场匹配点找不到,其次是创始人不想干了。都是优秀的人,远超一般的创业者的起点了,也一样九死一生。创业失败,贴标签很容易,比如说“不重视市场”,“不接地气”,还有我上面说的几条。这种标签很廉价,嘴皮一翻就有,没有任何实际意义。就和婚姻一样,创业的过程是异常复杂的,没有简简单单的成功,也没有脸谱化的失败。

继续阅读 “创业就是演进”

代码管理是一种知识管理

by 鲍捷 2017-01-17

代码是写给人读的,只是偶尔被机器执行。{

代码体现的是人的知识。代码的管理本质上是一种知识管理。

程序猿也是裸猿,继承了裸猿在认知和通讯能力上的一切先天弱点。这些弱点需要通过一些可重复的知识管理best practices来约束。结对,敏捷,用户故事,模块化,风格统一,代码演讲会,都是知识管理的方法。

}

继续阅读 “代码管理是一种知识管理”

文因互联的学习文化

不止一个人说,文因互联像一个大学校。

1)文因互联的访客,往往惊讶于公司的书之多,不仅一面墙的大书架摆满了,沿着墙一圈十来个小书架也摆满了,大多数人的桌子上也摆满了书。金融、财务、经济、企业管理、运营、产品、设计、工程、人工智能、历史、政治、科幻、科普、文学……各种门类的书。

2)每周,每个团队都会有一次学习讨论会。技术团队的“文因学堂”,学习各种和人工智能有关的话题。产品团队最近在加紧学习金融,除了看书、上公开课,还看电影,体会金融众生心态。商务团队也每周分享客户维护、运营、文案等诸多问题的经验心得。我们定期会请外部顾问,包括硅谷的专家来做技能提升培训。对外,还有智能金融沙龙,已经办了二十多期了。

继续阅读 “文因互联的学习文化”

可视化及其在早期投研中的应用

在文因互联2017年1月7日举办的第21期智能金融沙龙中,我们邀请到了北京知珠传媒科技有限公司创始人CEO郝庆一,和大家分享面对海量数据和信息,如何通过可视化寻找早期投研机会,洞悉金融资本的背后决策逻辑。下面是分享的现场实录,以供业界人士共同探讨。

 

我们从2016年开始做可视化在投研中的应用,其实也经过两三年的摸索和思考,但都是很浅的。所以今天在文因互联举办的智能金融沙龙上,我把我们思考成熟的一些东西,甚至思考不成熟的都拿出来分享一下,抛砖引玉,和大家一起探索更多的可能性。

这次主要从三个方面来聊,

  • 第一部分:可视化和可视分析。
  • 第二部分:美国公司Quid。
  • 第三部分:和大家汇报我们这一段时间做的工作。

继续阅读 “可视化及其在早期投研中的应用”

谈后勤

业余军事家谈战略,真正的军事家谈后勤。“正确”的战略一文不值,有人执行的战略才谈得上是战略。大多数事情是卡在人上,不是卡在战略上。创业更是如此,最重要的不为外人道的,就是人事和后勤。要有坚强的内核,就要有源源不断往前线输送的辎重。

构架如治军,要紧是后勤。后勤最不可见,要日积月累。表面看到的快,看到的精益,都是后勤扎实后的结果。

继续阅读 “谈后勤”

纪念Mike Dean

Mike Dean是我在BBN的导师。回国后一直没有联系,最近才知悉他已经去世了。Mike是语义网的大师级专家,曾经是DAML项目参与人,OWL语言的作者之一,长期在BBN主持语义研究。他对语义网的架构、语言、应用有深刻过人的理解,尤其在其可用性、实践和工程方面有深厚的经验。2008年到2011年间,我和他在语义维基、本体语言、知识建模与问答系统、语义信息论方面有长期的合作。他的渊博和务实,使我受益良多。像这样的有实战经验的专家,全世界也是不多见的。

Mike是个极为和蔼的人,温文尔雅,耐心而乐于助人。在他的讣告里,还在号召大家为维基媒体基金会(WikiMedia)和万维网基金会( World Wide Web Foundation)捐款。他是真心把自己的一生奉献给了科学。

可以说Mike是一个高尚的人,一个纯粹的人,一个有益于人类的人。我们今天的生活都得益于他多年前的工作。缅怀Mike,希望他在天堂安息。

7334ba59ly1fbiu32dml2j203k050dfp

这些杀手级应用不太冷——从语义网到知识图谱的回顾

本文来自文因互联CEO鲍捷于2017年1月5日在人民大学所做的演讲

摘要:6年前,语义网技术曾经被广泛质疑。笔者当时做过一次题为“语义网:走向下一代杀手级应用”的讲演, 其中展望了未来语义网的“杀手级应用”可能会是什么形态。过去几年,技术发生了巨大的进步,语义网和其他技术融合催生了知识图谱的技术。从2012年到现 在,得到公认的杀手级,如Siri, Watson, Palantir, Kensho等不断涌现。到底是哪些因素使语义网技术走出了低谷? 外部环境发生了什么样的变迁使杀手级应用成为可能? 为什么巨头会从对知识工程的方法质疑走向热情拥抱? 本次讲座中我们一起复盘语义网/知识图谱绝地反击的漂亮过程, 并展望在Web下半场的25年中,会有哪些更加梦幻的杀手级应用。

下载: http://blog.memect.cn/wp-content/uploads/2017/01/2017-01-05_人民大学.pdf

Document-page-001

继续阅读 “这些杀手级应用不太冷——从语义网到知识图谱的回顾”

知识图谱的一些基本功

(好像说的不只是入门了。算是个成长打怪小提纲吧)

任何一个学科,重要的不是静态的知识本身,而是建立知其然(Framework),知其所以然(Rationale),最后到知未然(Insights)。最重要的便是产生insights,因拥有洞察而知关键所在,所以能预测未来的走向,不人云亦云。

知识图谱作为一门学问,绝不是用个图数据库写几条查询,或者用规则写一个表格的提取,就可以称为成功的运用的。和所有的学科一样,都需要长期的艰苦的努力,在充分了解前人成果的基础上,才有可能做出一点点成绩。

知识图谱作为人工智能(AI)的一个分支,和AI的其他分支一样,它的成功运用,都是需要知道它的所长,更需要知道它的所短的。特别是AI各个学派林立,经验主义(机器学习)、连接主义(神经网络)、理性主义(知识工程)、行为主义(机器人)各个方法的优劣,倘若不能有纵览的理解,也难以做正确的技术选型,往往盲目相信或者排斥一种技术。AI是一个极端需要广阔视野的学科。

知识图谱涉及知识提取、表达、存储、检索一系列技术,即使想有小成,也需要几年的功夫探索。如下所列,应该是每个知识图谱从业者都应该了解的一些基本功:

知道Web的发展史,了解为什么互联和开放是知识结构形成最关键的一件事。(我把这个列第一条,是我的偏见——但我认为这是最重要的一个insights)

知道RDF,OWL,SPARQL这些W3C技术堆栈,知道它们的长处和局限。会使用RDF数据库和推理机。

了解一点描述逻辑基础,知道描述逻辑和一阶逻辑的关系。知道模型论,不然完全没法理解RDF和OWL。

了解图灵机和基本的算法复杂性。知道什么是决策问题、可判定性、完备性和一致性、P、NP、NExpTime。

最好再知道一点逻辑程序(Logic Programming),涉猎一点答集程序(Answer Set Programming),知道LP和ASP的一些小工具。这些东西是规则引擎的核心。如果不满足于正则表达式和if-then-else,最好学一点这些。

哦,当然要精通正则表达式。熟悉regex的各种工具。

从正则文法到自动机。不理解自动机很多高效的模式提取算法都理解不了。

熟悉常见的知识库,不必事事重新造轮子,如Freebase, Wikidata, Yago, DBPedia。

熟悉结构化数据建模的基本方法,如ER,面向对象,UML,脑图。

学会使用一些本体编辑器,如Protege。(Palantir就是个价值120亿美元的本体编辑器)

熟悉任何一种关系数据库。会使用存储过程写递归查询。明白什么叫物化视图、传递闭包、推理闭包。

熟悉任何一种图数据库。明白图的局部索引和关系的全局索引的理论和实践性能差异。

熟悉词法分析的基本工具,如分词、词性标注

熟悉句法分析的基本工具,如成分分析、依存文法分析、深层文法分析

熟悉TFIDF、主题模型和分布式表示的基本概念和工具。知道怎么计算两个词的相似度、词和句子的关联度。

知道怎么做命名实体识别。知道一些常用的词表。知道怎么用规则做关系提取。

为了上述的深化,要掌握一些机器学习的基本概念,识别、分类、聚类、预测、回归。掌握一些机器学习工具包的使用。

谨慎地使用一些深度学习方法,最好在是了解了神经网络的局限之后,先玩玩BP。主要是用用LSTM。

了解前人已经建好的各种Lexical数据库,如Wordnet, framenet, BabelNet, PropBank。熟悉一些常用的Corpus。

知道信息检索的基本原理。知道各种结构的索引的代价。

掌握Lucene或者Solr/Elasticsearch的使用。

学会混合使用多种数据库,把结构化数据和非结构化数据放在一起使用。体会数据建模和查询的成本。

学会一些概念原型工具,如Axure和Semantic Mediawiki。快速做MVP。

以上是挂一漏万的一些罗列。知识图谱是交叉性的、实践性的学问,当然不必先蒙头学几年才能来做事。How to get to Carnegie Hall? Practice, Practice, Practice.

所以Just practice。

最后推销一下我在中国中文信息学会《前沿技术讲习班》第三期做的讲座:精益知识图谱方法论 – 文因互联