写点什么

日均数亿次检索请求,百度是如何做大规模知识图谱构建和应用的?

  • 2020-02-21
  • 本文字数:6689 字

    阅读完需:约 22 分钟

日均数亿次检索请求,百度是如何做大规模知识图谱构建和应用的?

知识图谱在人工智能应用中的重要价值日益突显。基于海量互联网资源,百度构建了超大规模的通用知识图谱,并在智能搜索、智能推荐、智能交互等多项产品中实现了广泛应用。随着文本、语音、视觉等智能技术的不断深入,行业智能化诉求的提升,知识图谱在复杂知识表示、多模态语义理解、行业图谱构建和应用等方面都面临新的挑战。在 2019 年 11 月 22 日举行的 AICon 全球人工智能与机器学习技术大会上,百度知识图谱部主任研发架构师宋勋超分享了百度在大规模知识图谱构建、多模语义理解、行业知识图谱构建及应用等方面的最新进展。


很高兴在 AICon 大会上和大家分享百度知识图谱部在过去一段时间里的技术进展和应用落地情况。本次分享的主题是“百度大规模知识图谱构建与智能应用”,内容主要分为三个部分:第一个部分是百度知识图谱概述;第二部分是百度知识图谱技术的进展;第三个部分是百度知识图谱的行业实践。

百度知识图谱概述

接下来先来讲讲第一个部分——百度知识图谱概述。首先我想花些时间和大家一起回顾下,过去几年,百度知识图谱的主线工作以及技术发展历程。百度知识图谱源于搜索,服务搜索,同时随着自身技术的积累和进化,我们将知识图谱的技术广泛地运用在了搜索之外的业务和产品线上。知识图谱构建和应用,我们大概经历了四个比较大的阶段。

百度知识图谱发展历程

Pre-KG 阶段

第一个阶段是 2013 年以前,我们内部称之为 Pre-KG 阶段。其实这个阶段也是学术界和业界认为的知识图谱技术发展的初期阶段。在这个阶段,我们主要所做的工作是用定制化的方式去生产结构化的数据,其实这里还不能把它叫做“知识图谱”。当时我们将定制化方式生产出来的结构化数据,应用在了百度搜索向智能化迈进的早期代表性产品——百度知心当中。

领域知识图谱阶段

第二个阶段,也就是 2014 年到 2015 年。我们称之为领域知识图谱阶段。在这个阶段,我们知识图谱的构建和应用技术体系逐渐成形,建立了一套面向垂类和领域知识图谱建模构建和应用的架构与机制,应用落地层面重点支持了百度搜索的阿拉丁、推荐以及智能摘要,还有百度第一代智能生活助理度秘里面的垂类搜索和垂类问答。

通用知识图谱阶段

第三个阶段,是 2016 年到 2017 年。在这个阶段,我们逐渐地深化了通用知识图谱构建相关的架构、算法和机制,技术重点在于统一融合的知识图谱,平台化外包化的知识图谱构建,并且在这个过程中,我们逐渐深化建设了一系列比较有特色的领域知识图谱,包括百度汉语知识图谱和娱乐知识图谱。在应用落地层面,在搜索产品中,百度知识图谱开始以 KB 问答的形式来直接服务于百度搜索的首位满足。在 DuerOS 各种端设备上的通用信息满足,也在不断地扩充着我们的影响面。在百度 Feed 信息流推荐这个场景中,我们基于知识图谱构建了大规模的兴趣点和关注点图谱,使得信息分发效果更好。

通用/行业知识图谱+多元异构

最后一个阶段也就是 2017 年至今。这个阶段,我们逐渐将知识图谱的能力释放出去,并且深入地探索了领域内比较前瞻的问题。在这个阶段,我们技术聚焦的重点在于多元、异构知识图谱的构建,以及基于知识图谱的主动收录学习模式,还有对于超越简单三元组的多媒体知识、复杂知识和行业知识的理解和构建。这个阶段,在搜索端,我们主要的应用落地是用知识图谱全方位支持百度搜索首位满足。我们除了在 Feed 信息流里面基于知识图谱的语义关联构建兴趣点图谱来去做推荐外,我们还在 Feed 里面基于知识图谱去做深度视频内容理解,还有智能内容生成。从 2017 年开始,我们还逐渐地将知识图谱在百度内所积累的策略算法以及架构和平台的经验,迁移到行业,在客服、法律、医疗、金融、能源等等行业也都取得了一些进展和突破。


整体上来讲,截止到目前,百度通用知识图谱的数据规模已经达到了亿级别的实体和千亿级别的事实和关系。从 2014 年至今,知识图谱的服务规模已经增长了 490 倍。这个就是整个百度知识图谱部门从建立以来至今,技术和应用落地的发展历程。

智能搜索


接下来,我就分四个部分来简要地介绍一下亿级别实体、千亿级别属性关系的大规模通用知识图谱,在百度内各个核心业务线的应用情况。


首先是智能搜索。截止到目前,百度智能搜索的首位满足率已经达到 57%,这个是在 Robin 最新财报里面披露的一个数字。背后是基于百度最新的人工智能技术的加持,这其中 20%左右是由百度知识图谱的技术直接支持的。基于知识图谱,我们直接满足用户的搜索需求,目前每天平均满足数亿次的检索请求,其表现形式包括了各种形态的知识图谱问答卡片以及对实体各个维度进行信息聚合的知识大卡,这是知识图谱在百度搜索首位直接给大家带来的智能化体验。

智能对话

第二个应用点是智能对话。在过去一年,小度的智能音箱在用户规模上保持高速增长。在语音对话 DuerOS 这个系统中,知识图谱扮演了怎样的角色?其实,知识图谱为它提供的是通用的信息满足类的服务。截止到目前,百度知识图谱助力 DuerOS 实现了近百类的通用知识满足的能力,覆盖了很大比例的通用信息满足需求。

智能推荐


第三个层面,就是知识图谱应用在 Feed 信息流推荐场景中。在这个场景中,基于知识图谱的内容模型和智能推荐技术,Feed 文章的分发效率有了极大的提升。基于知识图谱的语义关联,我们构建了一个大规模的关注点图谱,通过点、边语义筛选,以及推理生成校验,生成关注点图谱,文章背后蕴含的内容关联,以及知识的联系,通过关注点图谱被链接起来。基于知识图谱增强的推荐,传统的智能推荐具备了更强的知识关联特性,同时推荐的可解释性和效果也得到了大幅度的提升。

智能写作


最后就是智能写作了。我们主要是以知识图谱的数据为核心,应用知识加工、计算、聚合等方式来生产高时效和高质量的独家内容。这种自动写作的方式,在特定的领域能够发挥非常重要的作用,比如股市分析、体育赛事报道的自动呈现等等。自然语言结合知识图谱,解决了创作者在写作前、写作中和写作后的诸多痛点问题。目前这项工作已经在百度大脑(ai.baidu.com)知识图谱专区已经开放了。下图是过去六年来我们技术沉淀的总结:


百度知识图谱技术进展

我分享的第二部分是百度知识图谱的技术进展。这一部分内容比较偏技术一些,它将以如何构建一个大规模、多元异构的知识图谱为目标,来进行几个技术 Topic 的拆解。

多元异构知识图谱


第一个技术 Topic 是近两年我们重点解决的一个问题——多元异构图谱的构建。它主要解决的问题是我们如何在一个开放、海量数据的互联网环境下,去构建千亿级事实和关系的知识图谱;知识图谱里面包含的所有内容是否就是简单的 SPO 三元组,我们是否需要将更多复杂的知识来引入到我们的知识图谱数据中;我们怎么去理解和构建多媒体知识以及行业知识等等。



首先,我们来讲讲开放海量数据构建大规模知识图谱这个技术 Topic。在大数据时代知识图谱技术需要处理的数据量级、百亿级、千亿级都非常常见,领域开放给我们带来的最大的挑战是什么?是数据结构复杂、知识表达多样、图谱关系也很复杂、计算性能要求高等等。面向开放互联网,我们研发了基于主动学习的大规模知识图谱构建技术,包括了以下几个层面:首先是基于远监督学习的开放知识抽取,来解决无标签、开放知识挖掘的问题;第二个方面是基于属性聚合的本体半自动构建,因为我们知道通用知识图谱所涵盖类目是非常多的,很难用专家的方式自顶向下地去描述整个客观世界知识图谱的本体和它的属性和关系的体系,必须要用数据驱动的方式完成在通用海量的数据上做本体构建的工作;第三个层面就是对多元的数据进行知识整合、融合。


基于以上技术,百度通用知识图谱的数据规模扩大了几个量级,并且显著提升了在搜索场景下知识图谱的覆盖度和建设效率。关键技术涵盖了开放知识挖掘、自底向上的开放本体构建、基于多源数据的知识整合。具体内容如下图所示:





知识图谱 SPO 三元组这种表示方式,并不能很好地描述状态、空间、条件、概率和时序这一系列复杂知识。我们需要研发一些具有更强语义表达能力的知识图谱。其中一项重要工作,就是事件图谱。事件图谱具有更强的表达能力,它能够对这个客观世界去进行建模。



上图展示的是一个历史领域的事件图谱示例。最左边这个图,表明了事件图谱具有更强的知识表达能力。同样的一幅国画,在没有知识或者弱知识的情况下,我们能够认知到这幅图画所蕴含的内容是三个人,有酒、有树,这对于 OCR 和图片识别来说已经算是个好的成果了。有了实体知识,也就是通用知识图谱后,我们对这幅画的理解程度就会加深,我们可以知道这里面描述的是刘备、关羽和张飞这三个人,这里面有酒、还有桃树。有了事件知识图谱,我们就能够知道,这描述的是在东汉末年,刘、关、张三人在桃园里三结义的故事。事件图谱持续、快速地获取客观世界中所发生的事件,并且挖掘事件的属性,建立事件在空间和时间纬度上的联系,进而来构成以事件为基本单位的知识网络。同时,在任意一个时刻,事件图谱都能够和实体图谱,也就是通用的 SPO 三元组图谱来形成一个映射,事件图谱和实体图谱之间是可以相互推断的。我们认为事件图谱具有更强的知识表达能力,能够对客观世界进行更好地建模。



上图是百度事件知识图谱的技术全景,我们从海量的互联网数据里面去挖掘热点事件,构建事件知识图谱,并且利用事件图谱的认知和计算技术,去服务于百度的搜索、推荐、对话、机器智能写作和舆情监控等等产品线。目前为止,事件从发生到发现,在百度搜索场景我们能够达到分钟级的感知,整体事件库的规模达到了千万级。


具体的应用情况如下图所示:



讲完了事件的知识图谱的表示和构建,接下来进入另外一个知识图谱的构建——多媒体知识图谱。多媒体知识图谱是我们一直关注并在未来会重点投入的一个方向。目前,视频基本覆盖了我们生活的方方面面,搜索和信息流的视频化趋势也越来越明显。



在这个技术 Topic 上,我们构建了基于知识图谱的视频内容分析,它主要去解决传统视频语义理解里缺乏背景知识的问题,帮助指导我们更好的理解视频。我们构建了一种基于知识图谱的视频语义理解技术,充分利用知识图谱丰富的、海量的背景知识去提升视频语义理解的效果。这个技术是通过对视觉、语音和文字多模的融合,结合知识图谱的子图关联,去深度地理解视频背后蕴含的知识信息。



上图左边是我们在该方向的技术栈的一个视图,包括了最底层的多模分析,这个多模分析是基于百度多模分析部门,分析出来的多模结果,我们在上层建立了基于知识图谱的语义理解的基础技术,包括视频内容模型、跨媒体生成、知识解析、子图关联、视频子图关联还有推理计算等。


这里面提到一个视频问答,这项工作是发表在 2019 年 ACL 上的一个成果,它的名字叫做“Multi-grained Attention with Object-level Grounding for Visual Question Answering”,它提出了一种多粒度跨模态注意力机制,在图片和句子的粒度基础之上,引入更细粒度的实体级别信息,帮助我们更加关注实体维度的理解。


近年来,越来越多的企业都有一个核心的诉求,就是希望利用知识图谱去沉淀行业知识,进而提升行业知识的运用水平。我们从 2017 年开始做这个事情,目前在金融、法律、医疗、能源等领域都已经有些落地,并且逐渐将积累多年的知识图谱系列核心技术,向行业进行通用化的迁移。

百度知识图谱行业实践

接下来我们阐述下第三部分主要内容,就是百度知识图谱的行业实践。这一部分我们会分享一些百度知识图谱在行业赋能方面的实践。知识图谱如何和行业结合是近几年这个行业实现从信息化到智能化跨越大家都非常关注的一个话题。



海量数据的知识化转化是目前众多行业所面临亟待解决的问题。我这里面列举了一些数字,用来说明几个特性:一、行业数据体量巨大;二、行业知识需求广泛;三、行业知识转化困难。根据一项权威分析报告显示,到 2020 年,我们整个行业里所积累的数据体量将从 2015 年的 5ZB,上升到 2020 年的 44ZB。具体到行业内部,比如法律行业,每年会产生 4 亿份卷宗,医疗行业,每年数据的增长率达到了 48%,也就是说我们现在正处在一个数据爆炸的时代。怎么利用这些数据更好地提升行业的智能化应用水平,是我们一直在思考的问题。


第二个特性是行业对知识的需求非常广泛。根据我国国民经济对行业的分类,我们将行业分为了 14 大知识密集型服务行业,其中以客服行业为代表,目前,我国现有 500 万专职客服人员,以每人每年六万的人力成本来算,这就是 3000 亿的人力成本。


第三个特性是目前数据到知识的转化是非常困难的。2020 年我们已经有 44ZB 的数据,而实际上这些数据的利用率也只有 0.4%。以走在信息化前列的金融行业为例,我们有 80%的数据蕴含在非结构化的数据里面,都没有被充分发挥和利用。人工构建一个知识图谱的成本是非常高的,以 Freebase 为例,它的整体规模成本是 65 亿,如果将这 65 亿除以 Freebase 里面所有包含知识条目数,基本上每条知识就是 2.25 美元。所以,知识图谱的行业化应用将是百度和业界都会关注的重点。



这里面列举了我们过去两年总结出来的通用知识图谱技术和行业知识图谱技术的不同,也正是基于这些不同,我们建立了一套行业知识图谱构建与应用的技术体系。具体而言,我们认为,行业知识图谱和通用知识图谱在下面四个维度有着很大不同,这四个维度也是知识图谱从表示、构建、到服务和应用的四个全周期维度。



上图是我们知识图谱全流程智能化的简要视图,从知识建模、到知识构建,再到知识计算和知识应用,我们在每一个环节都有自己的关注点。比如在知识建模这个层面,我们会重点关注知识模式的动态扩展、行业复杂知识表达、行业与业界标准的兼容开放、可视化协同建模,以及我们会将通用知识模型引入和内置到行业知识图谱的表达过程中。


接下来我们深入讲解下几个重点技术问题。



首先第一个问题是行业知识图谱构建时我们面临的最大挑战——知识理解冷启动的问题。在百度内部知识图谱构建,理解算法层面,我们有大量的互联网语料,我们有基于用户点击贡献的海量标注,这些信息帮助我们在通用领域将算法推到一个比较好的效果上。在行业内,一般标注数据会缺失,专家标注的人力成本又非常高,为了解决上述问题,我们在行业应用过程中遵循一个范式去解决行业语料冷启动问题。上图展示了这个范式的大致流程。


下图是我们行业知识图谱构建的全流程,包括了知识建模、抽取、清洗、消歧、建边和关联,这里面列举了现在我们重点关注的三个行业:法律知识图谱、医疗知识图谱和金融知识图谱。




我刚刚提到了计算挖掘和推理是目前行业对于知识图谱需求非常大的一个点,是超越了简单问答等等一系列浅层应用的点。比如在金融行业,我们有大量的交易数据、投资数据,我们可以从这些数据里面去挖掘出有价值的信息,将其应用在反欺诈、风险控制和智能营销这些领域。这些应用会依赖一个基于图表示的计算分析引擎—图数据库。百度 BGraph 就是这样一个拥有自主知识产权的大规模高性能原生图数据库。



最后我们讲一下知识图谱问答。知识图谱问答在行业上面分了三种技术,去满足行业对于知识图谱的问答需求。第一部分就是 KBQA,它是基于知识图谱结构化数据的问答技术,主要是用两种 semantic parsing 技术去解决行业知识图谱问答问题。第二部分是 IRQA,也就是是阅读理解 QA,第三部分是知识推理计算型 QA。通过这三种 QA,我们在行业知识库、行业智能客服等多个场景中都取得了非常好的 QA 效果。


总结

我们目前面向行业所构建的行业知识图谱一体化服务,包括了最底层的离线架构、检索架构(图数据库),以及上层丰富的应用技术,我们将它封装成行业知识图谱平台(ai.baidu.com 上有专区),大家可以通过这个入口,与我们取得联系。在应用层面,我们目前有三个标准化的产品,一个是图数据库,一个是智能客服,还有一个是基于知识图谱的智能知识库。在行业深耕层面主要是医疗、金融、法律、能源这几个行业,我们现在都有了一些规模化落地,并且还在不断的扩充着落地范畴。


知识图谱一直都是人工智能的热门领域,随着 2020 年的钟声敲响,知识图谱也逐渐进入到了下半场,繁杂的应用场景、深度的知识应用、密集的专家知识都给知识图谱带来了不小的挑战,那么如何在这场没有硝烟的战争中拔得头筹呢?相信 AICon2020 上海会给你提供一个很好的基础,AICon 本次也会重点关注知识图谱的最新技术进展,将邀请一线大厂的讲师为大家分享他们走过的那些坑以及总结出来的经验教训。


嘉宾介绍:


宋勋超,硕士毕业于浙江大学,百度知识图谱部主任研发架构师。参与了百度知识图谱设计、构建和应用的整体流程,具有丰富的知识图谱实践经验。目前主要负责通用知识图谱构建、语义理解、图谱架构等技术,同时负责百度行业知识图谱相关工作。研发成果在百度搜索、信息流、DuerOS,百度云等多项产品中广泛应用。


2020-02-21 09:334911

评论

发布
暂无评论
发现更多内容

Spark知识点简单总结

五分钟学大数据

大数据 spark 5月日更

做一次黑客,入侵一次服务器

叫我阿柒啊

Docker 入侵 docker远程 redis注入

阿里云原生开源大家族加入中科院软件所开源软件供应链点亮计 - 暑期 2021

阿里巴巴云原生

开源 容器 微服务 开发者 云原生

超级详细!全网独家首发的SpringCloud Alibaba 到底有多强?

Java 程序员 架构 面试

记十亿级Es数据迁移mongodb成本节省及性能优化实践

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 架构 分布式数据库mongodb

2021 DevOpsDays 东京站完美收官 | CODING 专家受邀分享最新技术资讯

CODING DevOps

DevOps CI/CD

并发王者课 - 青铜 3: 双刃剑-理解多线程带来的安全问题

MetaThoughts

Java 多线程 并发 王者并发课

Hive窗口函数与分析函数

大数据技术指南

hive 5月日更

首届HarmonyOS开发者创新大赛颁奖典礼于深圳召开

科技汇

推荐计划 | 推荐好友用 CODING,获高额返现奖励

CODING DevOps

团队管理 敏捷开发 研发工具 开发团队

部署混合云环境的5大挑战

云计算

百度 Serverless 架构揭秘与应用实践

百度开发者中心

百度 开源 Serverless 云原生

「DataPipeline」完成数千万B轮融资,加速构建中国的世界级数据中间件产品

DataPipeline数见科技

融资

Nginx的11个执行阶段详解

运维研习社

nginx 运维 源码剖析 5月日更

我粉了!阿里大牛从内部带出来的百亿级高并发系统,从基础到实战、面面俱到

Java 程序员 架构 面试

每个开发人员都应该知道的 10 个 GitHub 仓库

LeanCloud

GitHub web开发

仰望天空,脚踏实地 —— CODING OKR 全新上线

CODING DevOps

团队管理 OKR

ETL-KETTLE工具使用

this

Java 数据 数据同步 ETL

飞猪基于 Serverless 的云+端实践与思考

阿里巴巴云原生

Serverless 容器 运维 云原生 监控

☕【JVM 技术之旅】让你完全攻克内存溢出(OOM)这一难题(上)

洛神灬殇

JVM OOM 异常 Exception 5月日更

简单了解 MySQL 中相关的锁

leonsh

MySQL 后端

iOS面试--拼多多最新iOS开发面试题

一意孤行的程序员

ios swift 面试 ios开发 知识分享

字节跳动Java岗一二三面全经过分享

北游学Java

Java 字节跳动 面试

玩转直播系列之消息模块演进(3)

vivo互联网技术

Java 服务器 消息系统 直播技术

高级软件工程师必备的五大技能

架构精进之路

5月日更

华为HMS生态和1+8+N的交叉点,点透棋局的华为帐号

脑极体

Kubernetes 普及系列:容器基础入门

CODING DevOps

Kubernetes

参与 Apache 顶级开源项目的 N 种方式,Apache Dubbo Samples SIG 成立!

阿里巴巴云原生

开源 开发者 云原生 dubbo 中间件

程序员写好技术文章的几点小技巧

阿里巴巴云原生

程序员 云原生 写作 写作技巧

MindSpore:不用摘口罩也知道你是谁

华为云开发者联盟

算法 人脸识别 口罩 mindspore 口罩人脸

阿里P9架构师强烈推荐:想拿60W以上年薪必看,Java高并发四套小册。

Java架构追梦

Java 阿里巴巴 架构 面试 高并发

日均数亿次检索请求,百度是如何做大规模知识图谱构建和应用的?_文化 & 方法_宋勋超_InfoQ精选文章