报告摘要:知识图谱技术自2012年推出以来,取得了极大的进展,已经成为大数据时代的重要知识表示之一,是大数据知识工程的典型代表,成为认知智能实现的核心基础技术,有力地推动了智能化的发展进程。知识图谱技术已经在大规模简单应用场景中取得了显著落地效果。近年来,知识图谱的需求从数据丰富的大规模简单应用场景转向专家知识密集但数据相对稀缺的小规模复杂应用。这一转向过程所呈现出的一系列全新的形势,诸如繁杂的应用场景、深度的知识应用、密集的专家知识、有限的数据资源等等,都为知识图谱落地带来了巨大挑战。知识图谱技术的研究与应用日益进入深水区,知识图谱的“下半场”的态势已经十分明显。本报告将结合知识工场实验室往年的实践和近期的探索,系统整理知识图谱上半场的主要成果,分析知识图谱下半场的挑战与机遇,以期为各行业的认知智能实践带来有益的参考。
本文由 DataFunTalk 根据肖仰华教授近期所作报告《知识图谱的下半场:机遇与挑战》整理而成,并经肖仰华教授亲自审核。
知识图谱的发展介绍
把时间回溯到阿兰•图灵时代,在这个时代人们就在思考一个问题,能否让机器像人类一样思考问题。让机器具备思考能力,本质上就是让机器具备对世界的认知能力,因为我们的思考过程,绝大部分都和我们的认知有着密切的关联。所以让机器实现人类的认知能力,本质上是让机器实现认知智能。认知智能虽然在各大媒体出现的越来越频繁,但是什么是认知智能,却一直缺少一个准确的定义,国内的认知心理学专家,清华大学的蔡曙山教授曾经画过一张图(如下图左半部分):
他将人类的认知分为几个层次,从低阶人类和动物共有的神经认知和心理认知,再到高阶人类特有的认知如语言认知、思维认知和文化认知。这里的分水岭就是在语言,事实上正是因为语言的出现,人类才从动物中脱颖而出,成为万物之灵长,所以语言认知在人类发展过程中扮演着非常重要的角色。
让机器具备认知智能就是让机器具备像人类一样的高阶认知能力即语言认知、思维认知和文化认知。集中的体现在机器的理解和解释能力;机器理解数据、理解行业、理解世界;机器能够解释过程、解释结果、解释现象。例如叶杰平老师提出利用深度学习模型学到 POI 的 embedding,其实质是关于 POI 的一种分布式的隐式表示,基于这个 embedding 我们学到了很多 pattern,这些 pattern 到底说明什么,我们迫切需要进行解释。理解和解释将会是深度学习在大数据红利过后的后深度学习时代人工智能最重要的研究问题。此外,认知智能还包括让机器具备规划、推理、演绎、归纳等一系列只有人类具备的能力。很快我们将见证一个新的认知世界的主体,这将是人类社会发展中从来没有遇到的事,以前只有我们人类会认知世界,未来会出现一个新的主体:机器。我们现在每天获取信息大都是通过微博、微信、头条、知乎等,事实上这些媒体都存在大量的推荐算法,我们现在的认知和世界观很大程度上是由这些推荐算法塑造的,所以一定程度上我们人类在逐步的把人类的认知世界的任务交给机器,所以智能机器将会成为认知世界的新主体。
知识图谱的上半场
1. 知识工程
在实现认知智能的过程中有一门重要学科:知识工程。知识工程脱胎于人工智能最重要的学派之一:符号主义。符号主义认为认知即计算;知识是人工智能的核心和基础,知识的表示、推理和运用是人工智能的核心。其代表性人物是 Newell 和 Simon,他们曾经提出符号主义的理论基础:物理符号系统。这一理论认为智能的本质就是符号的操作和运算。这一理念被知识工程的鼻祖 Edward Feigenbaum 重新阐释为 AI 系统=知识+推理,知识工程正是在这样的基础上蓬勃发展起来的。知识工程是一门以专家系统的构建和运用为主要内容的学科,而专家系统则是一类利用专家的知识和推理能力来解决实际问题的系统。
知识工程的发展,从上世纪 70 年代提出到今天经历了几个阶段:
2. 传统知识工程
传统知识工程(上世纪 7、80 年代)是典型的自上而下的做法,严重依赖专家和人的干预,需要领域专家先把知识表达出来,然后需要知识工程师把领域专家的语言描述为计算机可以表达和处理的形式,以及用户的反馈。受限于那个时代的存储等硬件条件,没有大数据,做不到大规模数据化留存,更谈不上自下而上的数据驱动的知识获取,所以只能靠专家去做。这导致了知识规模有限、质量存疑。具体表现为:
知识表示方面的困难:
隐性知识、过程知识等难以表达
领域知识的形式化表达较为困难
专家知识不可避免的存在主观性
不同专家之间知识可能存在不一致
知识表达难以完备,缺漏是常态
知识应用方面的困难:
应用易于超出预先设定的知识边界
很多应用需要常识的支持
难以处理异常情况
难以处理不确定性推理
知识更新困难
由于这些局限,传统知识工程只能在规则明确、边界清晰、应用封闭的应用场景取得成功。最成功的应用就是几何定理证明,因为规则是绝对明确的,边界绝对清晰,应用绝对封闭。当前 AI 领域所谓的成功应用绝大部分也都满足这样的条件,如 AlphaGo 下棋,就是个只关乎下棋规则的封闭场景应用。
3. 大数据知识工程
正因为传统工程存在种种问题,后来发现无法适应大数据和互联网时代的需求。
我们到了互联网时代,应用的特点发生了变化,大部分都是大规模开放性应用,我们的用户不断的在创造新的搜索关键词,但是很多应用精度要求不高,比如搜索从来不要求排序结果 100%准确,推荐的准确率在 10%以上就已经很不错了,就可以实际应用了。大部分的应用推理都是简单推理,比如问问“姚明的身高是多少”就可以了,很少有人问“姚明的老婆的婆婆的儿子有多高”这样的问题,一般不会去调侃机器。
同时,大数据时代也给新时期知识库技术的发展带来了机遇。大数据时代,我们拥有了前所未有的算力和数据,有着花样繁多的模型,大规模的众包平台,以及高质量的用户内容,这使得自动化知识获取、自动化的知识图谱构建成为可能。
在这样的大背景下,谷歌发布了自己的知识图谱,宣告了知识工程从传统知识工程进入了大数据知识工程的新阶段。我们要清楚的意识到一点:在当下谈论知识工程,一定要做到自动化的知识获取,否则很难说你是真正在做知识图谱。
① 大规模简单知识表示
我们来盘点下,知识图谱技术从 2012 年谷歌提出到今天,大数据知识工程也发展了五六年,我们到底解决了什么问题,做到了什么程度:
首先从知识表示层来看,知识图谱的研究和落地,现在只是完成了大规模简单应用所需要的表示。知识图谱本质上是大规模语义网络。知识图谱首先是一种大规模知识表示,所以它通常包含海量的实体,往往是数以亿计。大规模也体现为多样的关系,成千上万的关系。正是因为它规模大,往往需要做出质量妥协,所以很多时候知识图谱也允许出错。现在没有人敢说自己数千万、数亿规模的知识图谱百分百正确,永远是 99.999%,允许错误。也允许 schema 不完善,从而包容更多实例,精良的模式在很多图谱里面是缺失的。语义网社区投入巨大精力推动通用 schema 的建设,但是遇到很多挑战。
它支撑的应用,大部分是简单应用:以实体(词汇)为中心的知识表示,表达的往往是实体的属性和关系;它的推理极为简单,往往都是基于路径或者上下位词的简单推理,以及基于分布式表示的推理,比如基于 embedding 向量相似性的一些推理。所以知识图谱这几年的发展,解决了大规模简单应用的场景。
整个知识图谱的上半场在大规模简单知识应用场景下取得了较好的落地效果。这样的效果,很大程度是互联网头部企业推动的,如做搜索的百度和谷歌,做衣食住行的滴滴、美团和阿里等推动的。
② 知识获取
在知识获取方面,我们近几年做到了:
第一,跟传统的靠专家来获取知识工程相比,在互联网时代,我们大量发展了数据驱动的知识获取方法。比如从海量的网页中通过语法 pattern 抽取知识,从海量购物篮中挖掘消费的场景知识,都是数据驱动的做法。但是数据驱动的做法,只能做一些简单的知识获取,只能从一些相对规范的、格式化的文本,比如百科文本,获取知识;只能做一些显式知识的获取,也就是大部分抽取出的知识都是在语料中被显式提及的或者在数据中显式存在的,如果需要深度的做一些推理知识获取,仍然很困难。所以总体上,现在获取的都是简单的词汇、实体和世界知识。
第二,大规模自动化简单知识获取基本可行。以知识工场实验室的实践为例,针对面向互联网的百科知识获取,我们基本实现了从自动数据获取->自动抽取->自动验证三个环节的完整闭环。其中的自动验证是通过一个大规模众包平台,以阅读理解验证码的形式进行验证。所以全流程自动化知识获取基本可行。现阶段,如果从百科文本抽取简单知识(比如“姚明老婆是谁”“姚明出生在哪里”这类百科知识)准确率可以做到 90%,对于头部的这些知识和属性(比如 TOP100),可以做到 90%以上的抽取准确率。
③ 基于知识图谱的简单推理
那么从应用层面,我们这几年知识图谱做到什么?首要就是实现了简单推理。符号知识存在的根本价值在于能做推理。当前有效落地的大部分推理是简单推理。什么是简单推理?例如,用户搜索刘德华,很多平台给用户推荐他的歌。这是因为知识图谱知道刘德华是歌手,因此一定会有相应歌曲。这是基于上下位关系推理。搜索宋太祖,推荐赵匡胤,这是同义关系推理;搜索李娜,推荐姜山,这是因为二人是夫妻关系。再比如,搜索战狼 1,那么平台可能会推荐战狼 2。因为它们都是同类型的电影,并且是同一个导演、同一个主演,这是基于路径的推理。我们还可以利用分布式表示(embedding)来推理。如果在分布式表示的隐空间里面两个向量足够接近,那么就可以推荐给用户。
现实中大部分应用利用这些简单推理就能解决,并且即便只用这种简单推理也能解决很多以前搜不到、推不准、问不清的痛点问题,并且效果显著。大家现在看到的很多应用场景、应用知识图谱所解决的根本问题,都是搜索、推荐和问答。搜得到,推得准,问得明,现在已经基本成为现实。
4. 大数据知识工程到底解决了哪些问题?
① 语言表达鸿沟
知识图谱解决了语言表达鸿沟问题。很多时候用户所提供的搜索关键词,与厂家提供的文档、商品之间存在着巨大的词汇表达差异,这就是词汇鸿沟问题(vocabulary gap)。比如在司法领域,法条的编写者、法律专家和普通老百姓在对同一件事情进行描述时所使用的语言完全不一样。再比如,有些实体本身就有若干种说法,中文中关于老婆这一称呼的表示就有 100 多种。在一系列应用中,服务方与消费者之间、平台与客户之间、专家与老百姓之间往往存在巨大的词汇鸿沟。如果能弥补词汇鸿沟,就能解决大问题。这个问题就要靠知识图谱来解决,我们通过建设大量词汇知识图谱,包含领域的同义词、缩略词、上下位词等关系,可以有效解决语言表达鸿沟的问题。
② 缺失的因果链条
知识图谱补全了缺失的因果链条(背景知识)。万事万物都处在一个复杂的因果网络中,当前的大数据多是业务结果数据,缺乏产生这些数据的背景因果。比如,我们一直习惯于用数据挖掘根据尿布推啤酒,因为买尿布的人经常买啤酒。可是我们很少问为什么,其实如果我们能够知道一个经常买尿布的男性用户为什么同时也买啤酒的原因,这实际上可以帮助我们创造更大的商业价值。一个男性用户买了尿布,也买啤酒是有原因的:可能是家里有新生儿,然后母亲又在坐月子,新手父亲肯定很紧张疲惫,而产妇又行动不便,所以肯定是父亲来买尿布,这几天他很紧张很疲惫,所以买一点啤酒顺便缓解一下压力。如果我们能用知识图谱把因果链条给补全,当男性用户再次买尿布时,我们推断他压力大,那么他要不要来一个心理咨询服务?我们可以推荐很多新的业务,所以实际上对我们绝大部分互联网的头部平台意义非常重大,这将会是很多平台后面花大力气去做的事。
③ 碎片化数据的关联与融合
很多行业大数据价值变现,困难重重,很大的一个原因是数据治理代价太大。而这个数据的治理,往往需要做数据的关联和融合,而这个关联和融合还需要靠人来做,靠人来做会导致成本太高,这就是阻碍现在很多行业大数据价值变现很重要的一个原因。那么,我们能不能利用知识图谱,因为知识图谱中,已经有很多元数据和关联。比如,告诉我们身份证,往往表示为 ID,这样一种关联就可以告诉我们这两个字段是可以匹配的,而关联才能最终创造价值。所以,利用知识图谱作为数据融合的指引,也是知识图谱带来的价值。
④ 深化行业数据的理解与洞察
我们以前做大数据分析的,总体上来讲,还是停留在基于关键字的大数据分析,而任何关键字其实背后都是在指示、表达一些实体概念和主题,所以我们能不能上升到实体层、概念层和主题层去做这种行业的洞察和分析。这对于我们做情报分析、商情分析,都是非常有意义的。比如,我要找关于生态文明建设的内容,就这个很简单的任务,其实就需要知识图谱。数据分析系统需要知道关于环境的、关于生态文明建设的、关于绿水青山金山银山的这些内容都是跟生态文明建设相关的。数据分析系统必须要有很强大的背景知识,才有可能把传统基于关键字的分析变成基于主题、实体、概念的分析。
⑤ 显著提升了机器的自然语言理解水平
在知识图谱的带动下,自然语言理解取得了飞速的进展,现在把知识作为赛道,来提升自然语言模型的能力,已经成为今年 ACL 最重要的趋势。实际上,我们三年前就开始摸索能否利用知识图谱作为背景知识,突破机器语言理解的瓶颈,在这个思路指引下,目前中文的实体理解,我们认为已经被解决。不管是短文本、复杂文本、长文本,实体链接准确率做到 90%+已经没有问题,大家可以看到华为云、百度云都已经推出了这项服务。还有基于知识的问答等实用化关键技术都取得了突破。还有,在自然语言处理中,知识支撑下的知识问答、行业问答已经有了一个非常长足的进步,这实际上都是基于知识图谱的支撑做到的。
⑥ 基于知识图谱的大规模知识服务
正是由于知识图谱解决了很多问题,所以基于知识图谱的大规模知识服务已经初具形态:我们是 15 年上线了云平台,提供了大量的百科知识图谱、通用知识图谱,作为服务和数据提供给大家使用。商业化的服务也产生了,比如华为 18 年上线的知识图谱云服务平台,后面会有越来越多的公司来推类似的知识图谱云服务,以及面向行业的知识图谱云服务。为什么?因为图谱本身只是一种数据,要想基于知识图谱形成通用、行业的认知能力,最好的方式就是提供服务。比如实体的认知服务、实体的概念化服务、实体的推荐服务等等。
⑦ 知识图谱可视化已大量应用
由此引出图谱的另一个很重要的形态,就是可视化,这也是大家很感兴趣的内容。其实可视化已经很成熟了,现在我们可以通过时间、空间还有语义的视角来展示各类的知识图谱。
⑧ 大数据知识工程理论体系日趋完善
最后,以知识图谱为代表的大数据知识工程理论体系已经十分完善了,包括基础、构建、管理、应用和实践。整个理论体系在《知识图谱概念与技术》这本书中也有介绍,全书 540 多页,基本涵盖了知识图谱的方方面面。
知识图谱下半场
我们已经对上半场做了一个简单的总结,那么知识图谱下半场我们做什么呢?
1. 应用场景转变
我们为什么要开始一个下半场?因为我深切的感受到我们的应用在变,最近两年最大的变化就是我们面临着应用场景的变换。我们正在从大规模、简单的应用场景向小规模、复杂应用场景切换。知识图谱的前期应用场景都是以 BAT、TMD 为代表,它们属于大规模简单应用场景,模式单一,其应用的知识是众人皆知的。比如在淘宝上买衣服,只要推荐系统知道西服跟领带是搭配关系,那么用户买了西服之后,推荐系统就会推荐领带。这些知识以词汇或实体知识为主,有着大规模的用户数据保障。但是现在越来越多的是石油、能源、工业、医疗、司法、金融这种小规模复杂应用场景,它有着密集的专家知识、有限的数据资源和深度的知识应用等鲜明特性,这都是新场景给我们提出的全新挑战。
这些新场景都集中在工业领域。我甚至认为工业智能化能否实现,知识图谱能否在工业领域成功落地应用,是检验知识图谱下半场应用价值的最为重要的判断依据。三大产业(农业、工业、服务业)中,我们现阶段的应用主要集中在服务业。如果我们能把工业搞定,三大产业就解决了两个。在工业应用场景下,设备成为了关注焦点,建立设备知识图谱,健全设备的使用、运维、检修等知识体系、是工业智能化的关键。知识图谱的下半场将从互联网上半场的以“人”为中心逐步发展到下半场“人”与“设备”并重的新态势。工业智能化的实现是知识图谱技术的重大历史使命。
2. 新的趋势
在新的阶段,我们发现了一些新的趋势:
① 繁杂的应用场景
以企业知识图谱为代表,很多企业与领域应用呈现出鲜明的复杂特性,我们很多的大企业如果想构建横贯企业所有流程的企业知识图谱,面临的场景可以说是“小而杂”, 以简单的员工报销为例,整个审批过程涉及到大量天气、航班、始发地、报销财务制度、内部审核流程的知识等等,也涉及到非常多员工的基本信息和大量的流程,所以它是一种很典型的繁杂的应用场景。我们知道计算机很喜欢用通用模型解决所有问题,最怕的就是“case by case”的针对不同场景去定制模型,这带来巨大挑战。
② 深度的知识应用
深度的知识应用,比如智能运维、医疗诊断、司法研判等领域,靠简单地堆砌同质化的数据,构建数据驱动的统计模型,难以解决这些场景的实际问题。这些应用场景对于知识(特别是业务知识)的深度应用提出了普遍诉求。在以互联网服务为代表的大规模简单应用场景中,由于其应用模式简单,用户行为数据丰富,通过构建数据驱动的统计模型,就能解决搜索与推荐等一系列问题。但是到了下半场,更多的应用是面向复杂决策的,知识驱动的智能应用将成为新趋势。
③ 密集的专家知识
上述各领域还呈现出一个鲜明的特点就是领域应用中需要密集的专家知识。比如故障排查、病人诊治所用到的知识都是专业知识,这与知识图谱在互联网应用中用到的衣食住行这类通用知识显著不同。这一新的形势对于获取隐性的专家知识提出了新挑战。一方面专家知识往往是隐性的,难以直接从文本中抽取。另一方面,专家知识有着一定的门槛,只有少部分行业从业人员才能完成专家知识的众包工作。
④ 有限的数据资源
但是在下半场,盘点数据的时候,会发现大部分的场景数据是稀缺的。首先领域数据本身就稀缺。其次还缺乏高质量的标注数据。我们很多机器学习模型需要标注数据,哪怕有资金可以投入人力标注,但是领域任务往往是不明确的,而专家资源又很昂贵,那么标注也会非常困难。如果不采用人工标注,而利用外界爬取的数据进行融合,也会十分困难,因为领域数据融合代价通常也非常大。所以总体上来讲,虽然很多时候我们觉得有大数据,但是相对于很多领域智能化应用而言,我们的数据还是十分“贫乏”。
机遇
虽然面临这么多的挑战,但是我们还是有很多机遇的:
一方面,机器学习领域的发展给了我们很多解决问题的新方法。首先基于深度学习的端到端模式已经成为一个主流的学习范式,成为解决问题的主流模式之一。虽然深度模型的选择、设计、调参仍存在不少问题,但是只要深度模型能够习得样本的有效特征表示,总体而言架构简单,在样本丰富场景下行之有效。机器学习领域最近关注较多的小样本学习、无监督学习、弱监督学习,发展迅速,为缓解领域样本稀缺带来了新的机会。此外,利用符号知识来增强机器学习,融合符号知识与统计学习模型,近期也受到了较多的关注。这一思路对于充分利用垂直领域相对丰富的专家知识来缓解机器学习的样本依赖具有积极意义。
另一方面,自然语言处理取得飞速进展。语言智能在深度学习以及大数据的推动下取得了长足的发展。特别是“无监督的预训练语言模型+特定任务或语料微调”这一文本处理架构在广泛的 NLP 任务上均取得了显著效果。预训练语言模型可以充分捕捉来自通用自然语言语料中的新信息,微调适合于将通用 NLP 模型兼顾领域语料以及领域任务的特性。因此,“预训练语言模型+特定任务或语料微调”这样一种处理自然语言的方式有望在面向文本的垂直领域知识获取中大显身手,攻城略地。
3. 应对策略
针对以上情况,我们的应对策略分为三个方面:知识表示、知识获取和知识应用。
知识表示:
知识图谱的过程、时空、多模态语义增强
知识图谱与其他知识表示的协同机制与方法
知识图谱的个性化表示
知识获取:
低成本知识获取机制与方法
多粒度知识获取
大规模尝试获取与理解
复杂知识获取机制与方法
知识应用:
知识图谱应用透明化
知识引导下的下一代机器学习
基于知识图谱的可解释人工智能
接下来,为大家详细介绍下。
知识表示方面:
① 与其他知识表示的协同表示与推理
与知识图谱其他表示去协同,我们刚刚说到,很多领域可能没有那么多数据和知识图谱,但是往往积累了丰富的专家知识,通常表达为规则库。90 年代发展的概念图模型擅长表达专家的决策知识。那么知识图谱能不能和规则库、概念图模型联姻,去解决很多问题。经过初步的尝试,可以告诉大家,这个方向是非常值得探索的,可以解决非常多的问题。比如,传统的规则库,往往都是专家经年累月积累而得,这些规则现在在很多场景用不上的根本原因是规则失配,也就是说大部分的形式化规则跟用户的自然语言描述匹配不上。如果我们可以建一个词汇知识图谱,就可以把用户的故障诊断、描述,跟专家的规则匹配上,从而解决规则失配问题。再比如,知识图谱和概率图模型也可以联姻。知识图谱中的符号知识可以作为构建概率图模型时的先验决策要素。知识图谱与传统知识表示联姻存在着重大研究和落地机会。
基于各类知识表示的协同推理也将是未来研究的重点问题之一。知识图谱上的推理仍然存在很多开放问题。现在所有的推理,都是严格的封闭世界假设,也就是在知识图谱中不存在的事实,就认为它不成立。如果知识图谱里面不存在有关刘德华父亲的相关事实,我就要认定刘德华没有父亲么?这显然是十分荒谬的。当前的大多数推理机制都是基于“不存在就不成立”的假设,这是一个亟待突破的问题,否则我们很多应用都有明显局限。此外,还有很多分布式推理与符号推理融合、弱推理增强等关键科学问题等等,在这里不展开论述。
② 知识图谱的多模态表示
另外一个非常重要的,呼吁大家投入巨大研发精力去做的是知识图谱的多模态表示,以及相应的大规模多模态知识图谱构建,我们认为这是将来实现认知智能的一个非常重要的关键基础技术。谈到马,我们何以能够理解马,如果没有马的形象、马的嘶鸣声、马的视频体验在脑海浮现,人们是不可能理解马的。单纯基于符号去理解世界的能力是十分有限的,我们必须要把多模态(图片、声音、视频)化的认知体验与相应的符号关联,实现大规模的符号接地。这件事情,当年做图像的人,做过一些,但是只实现了图像打标签,且不成体系。另外,反过来,我们已经存在数千万、数亿计规模的知识图谱,能不能把里面的概念、实体跟各种各样的符号、图像进行关联,这是一件非常重要的任务。如果我们实现了多模态知识图谱,以后机器再看到马,就自然能像人类一样产生奔腾、欢腾、积极向上等的意象,从而实现机器的跨模态理解。所以,实现大规模符号接地、构建多模态知识图谱,实现机器跨模态理解,提升机器理解世界的水平,是实现认知智能的关键基础技术之一。
③ 知识图谱的个性化表示
人认知是有主观性的。对同样一件事的认识,不同人的看法肯定不同。比如图里这个心理学实验,被实验者要选出哪个是杯子,哪个是碗。当杯子和碗足够矮之后,肯定有一些人说是碗,而另一些人说是杯子,所以对同样一件事我们的认知一定有差异,一定有主观。对图谱里的知识其实也存在主观性,这就引出了知识图谱的个性化表示问题:合理控制不同视角下的不同图谱,知识的不同视角往往是程度之分。比如“龙”,在东方人的视角下是吉祥的,而在西方人的视角下往往是凶恶的有贬义;搜索“5G 文档”,市场部门的人更愿意看到售前方案,而技术研发人员可能关心研发资料;“物廉价美的水果”这个品类对于不同人理解完全不同,故要针对不同的角色,定制相应的图谱。考虑到图模型的普适性,可以定制不同的权重,以体现不同角色对不同知识的认知程度。
知识获取方面:
① 发展低成本知识获取方法
我们仍然需要大力发展低成本的知识获取方法,这里主要是指无监督、小样本、弱监督的知识获取方法。很多时候强监督代价非常大,比如要耗费大量人力来标注。但是弱监督,比如采用规则、字典或者知识库、跨语言这种弱标注,成本就廉价得多。还有一个非常重要就是隐式众包。比如我们曾经推出过一类验证码,在做系统验证的同时,用户就帮助我们完成了知识的获取和验证工作。这种在用户完成验证、游戏、娱乐任务的同时完成众包任务的方式叫隐式众包。未来人类游戏、娱乐的隐式众包功能将会日益增多。隐式众包是一类典型的低成本知识获取方式。持续的降低知识获取成本,将是知识图谱永恒的命题。
② 注重多粒度知识获取
注重多粒度知识获取,现在很多知识获取还是单一粒度,很多领域需要在不同粒度获取知识来支撑不同级别的应用。比如在司法实践,同样一个法条,可以在法条级别解决问题,有的时候还需要把它变成规则,甚至进一步细化变成刑罚要件。所以,多粒度知识获取在领域知识图谱应用有着较多应用需求,合理控制粒度是关键。不仅仅是司法,多粒度知识获取在各行各业也都是具有普遍意义的。
③ 发展大规模常识知识获取
目前人工智能的发展瓶颈仍然在于常识,常识难题也是前面两次人工智能寒冬到来时的标志性事件。我个人认为这也是人工智能根本难题之一,它与诸多开放性难题有着千丝万缕的联系。什么叫常识?我们人人都知道的、无需言明的知识就是常识。比如:天空往往是蓝色的;人用嘴说话;人用两条腿走路 ;演讲台上现在正在给大家做演讲的肯定是个人而不是猴子等等。但是机器要想知道这些是很困难的。为什么呢?因为很多常识我们不去讲,就不会存在于数据中;而不在数据中,机器就没办法从数据中抽取和获取。但是越来越多的行业应用都对机器的常识理解水平提出了需求。
我提议要大力开展面向多模态数据的常识获取与理解技术研究。很多常识虽然不在文本里出现,但是它可能在图片、语音、视频里出现。比如天空肯定是在大地上面的,草地往往是绿色的,天空往往是蓝色的。再比如视频数据中往往蕴含大量的因果关系。类似于这种多模态的常识获取可能是我们滞缓下一波人工智能寒冬到来的非常重要的一个问题。
④ 复杂知识获取机制与方法
在知识获取方面我们大力开展复杂知识获取方面的研究工作。现在句子级别的知识抽取已经能够做到 90%以上的准确率,没什么难度。现在难的是文档级的知识获取。我们现在很多工作中,需要从海量文档中抽取知识,比如手册、标准、规范等等。现实情况中,我们买任意设备,经常会附赠一个手册,例如买电视机或者买汽车都会有一个手册,但是手册的利用率极低,很少有人会翻阅。然而真正碰到问题想去查找的时候,我们也很难从手册中找到答案。我们能否将这些鸡肋一般的手册全部淘汰掉,同时还能提升用户满意度?我觉得是有可能的,如果我们将手册变成知识库并实现知识问答,我们将可以为整个社会解决手册这一巨大成本问题。实现这个目标的前提是文档级的知识获取。文档级信息抽取。
文档信息抽取旨在从现有的文档中获取文档的结构化知识。相较于传统的信息抽取,基于文档的信息抽取需要结合文档自身的结构,书写风格,和组织形式进行一定的迁移。业务文档结构化迫切需要从句子级别抽取发展到篇章级别抽取。
第二个难点是基于深度推理的信息抽取。当前的关系抽取只能有效浅层文本特征描述的关系实例,难以应对需要推理的关系抽取,业务文档结构化迫切需要基于浅层文本特征的信息抽取到基于深度推理的信息抽取。
知识应用方面:
① 知识图谱应用透明化
应用方面第一个非常重要的问题,就是知识图谱应用的透明化问题。我们很多人都会给业界提供知识图谱解决方案,我们面对的用户从来不想知道知识图谱任何技术细节,他们只想知道知识图谱能够给他带来怎样的业务效果,解决怎样的业务问题。用户的参与其实就是最大的成本,用户的参与也是技术乏力的最大证明。我建议大力发展领域知识的自主学习技术,让机器自主的学习出 schema,让机器自主的获取知识,让用户零参与。将来用户只要支付成本,指定领域文档地址和数据入口,机器就能实现针对数据和文档的语义搜索和智能推荐,就能实现精准的知识问答。我相信,知识图谱透明化,会成为知识图谱行业解决方案提供方普遍的追求目标。
② 基于知识图谱的可解释人工智能
进一步发展基于知识图谱的可解释人工智能,解释是知识图谱的重要使命之一。以前我们解释还是应用图谱中的概念、属性、关系来解释,实际上基于这些知识图谱,完全可以用来解释现在很多深度学习学习出来的特征,深度学习学习出无数隐式的特征、隐式的 pattern,这些到底是什么?我们能不能用图谱中的符号化的知识、路径、概念去解释它,这里面存在着巨大的机会。虽然我们现在已经做到了一些简单的可解释性,如可解释的商品推荐,但是还有更多的机会。
③ 发展符号知识指导下的机器学习模型
发展符号知识指导下的机器学习模型。机器学习目前还是存在很大的问题,比如依赖大样本。其实人类的学习是很经济有效的,如识别猫和狗,父母只需要教小孩子一次就可以了,如果需要教 10 次,肯定会觉得这个小孩子有问题;而对于机器来说,学习识别猫和狗,需要数千万张标注样本才能学到。人为什么能经济有效的学习呢?因为人有知识,当学习识别猫和狗的时候,人已经具备了一定的先验知识,所以人的学习从来不是从零开始。而目前机器学习还是一切从零开始学,这是一个低效的方式,应该把知识加进去。不管是来自于机器学习模型沉淀出的知识,还是专家知识,都应该利用符号知识来增强机器学习,这样才能突破当前机器学习面临的一些瓶颈。
总结
最后,用一张图来总结,这里 Big Data 的范围半径是 r1,Big Knowledge 范围的半径是 r2,中间的交集是从 Big Data 中抽取到的知识。想告诉大家的是,首先,r1远小于 r2。如果大数据时代是浪花朵朵,那么大知识时代则将是波涛汹涌。其次,人类社会知识获取的道路仍然漫长。知识边界几乎是无边无际的,我们当下的知识工程只是从 Big Data 中获取了一点点知识。所以,我们在知识的表示、获取、应用上还是有着一段非常漫长的道路。
今天的分享就到这里,谢谢大家。
作者介绍:
肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。
本文来自 DataFunTalk
原文链接:
https://mp.weixin.qq.com/s/xAvRl6FK9ZJjpuU_odBEPw
评论