知识图谱最初由谷歌在 2012 年左右提出,主要用于优化搜索引擎,在后续发展中外延不断扩大。如今,知识图谱已经助力了很多热门的人工智能应用场景,例如语音助手、聊天机器人、智能问答等,并覆盖泛互联网、金融、政务、医疗等众多领域。虽然诞生至今已有七年,作为认知智能领域核心技术之一,知识图谱技术的火爆程度丝毫未减。
热度背后,却是大坑无数。实际上,知识图谱作为一项系统性工程,在落地实体画像、搜索、推荐、问答场景时面临诸多问题。前段时间我们曾经发布过一篇探讨谷歌知识图谱应用情况的文章(《前员工揭内幕:10 年了,为何谷歌还搞不定知识图谱?》),即使是谷歌这样体量巨大、资源充足的公司,在将知识图谱用于产品和服务时依然会遭遇瓶颈和困难。作为国内科技巨头公司之一,腾讯在知识图谱技术的落地演进过程中同样趟过不少坑。近日,InfoQ 有幸采访到了腾讯云知识图谱与图计算负责人吴睿,对以下问题展开探讨:知识图谱落地到底存在哪些痛点和难点?如何更好地应对?当前知识图谱技术处于什么样的发展阶段?未来有哪些技术方向值得关注?等,或许会对你有所启发。另外,吴睿还将在 AICon 全球人工智能与机器学习技术大会 北京 2019 进行主题为《腾讯云知识图谱技术与应用实践之路》的演讲分享,感兴趣的同学可以关注。
InfoQ:一直以来大家对于腾讯在知识图谱领域的工作了解并不多,我们在搜集信息的时候也没找到太多资料。首先请您介绍一下腾讯是什么时候开始投入知识图谱研究的?中间经过了什么样的发展历程?
吴睿:十亿级用户在腾讯数百个业务场景社交互动,每日接触海量娱乐、新闻、社交内容,整体构成了一个动态变化的包含用户和内容的异构图网络。业务需求主要体现在对图网络中的实体及关系精准挖掘,并构建推荐、搜索、风控等知识推理应用。
在知识图谱构建方面,腾讯 7 年前从搜搜开始建设了亿级实体百科知识图谱,并在业务实践中逐步沉淀了一站式可视化的知识图谱构建工具。腾讯 AI 平台部 Topbase 团队曾获得知识图谱 2017 KBP 的世界冠军。
在知识图谱的图存储和图计算方面,腾讯天然复杂的图网络数据催动技术多次迭代,从最早的并行 R 服务器开始,到 SparkX 大规模集群,到最新的基于 MPI 等框架自研图存储和图计算平台。
腾讯云知识图谱团队为更好满足智慧媒体、智慧政务、智慧医疗、智慧金融的产业智能需求,不仅整合了内部知识图谱构建及图计算能力,也聚合了公司内外多业务多场景的知识图谱推理应用模型,联合合作伙伴打造一站式知识图谱解决方案方案,统一对外输出。
InfoQ:能否总体介绍一下腾讯的知识图谱数据库 TKGD。官网上提到它是一个图数据库和图计算引擎的一体化平台,能否给我们具体解释一下所谓一体化平台指的是什么?为什么要做成一体化?
吴睿:这里的一体化平台指的是知识图谱在线存储查询和知识推理离线图计算的服务一站式完成。我们希望提供这样一个知识图谱平台,用户可以在平台上完成知识图谱从生产到构建到应用的全生命周期管理。
以用户画像场景为例, 首先可以通过 TKGD 定义知识图谱框架 Schema,将海量用户的社交网络以及用户接触的相关实体(群、游戏名)实时或者批量导入存储。
然后,业务专家可以根据业务需要构建相关的知识推理应用,比如在存储查询模块使用 Gremlin 语言编程,构建实体关系多跳查询、环路结构等图分析应用。相比传统的关系型数据库,它能够数十倍地提升画像团队理解数据结构、进行异常点和社群分析的效率。同时我们也在逐步支持自然语言的图分析查询能力,如直接问“A 用户和 B 用户之间关联的商品”。
同时在一些复杂场景,借助平台支持的高性能 LPA、社群分割、社群发现、图深度学习算法的推理模型,用户可以生产图嵌入特征或者直接生产用户画像。
InfoQ:据了解,腾讯知识图谱数据库采用了自主 AI 技术栈,能否自下而上详细解读一下该技术栈?
吴睿:在底层存储计算性能层,微信看一看推荐等场景需要基于微信天然的千亿关系链、内容实体形成的知识图谱进行图推荐算法开发,对性能和效果的需求推动了我们从底层存储计算自主研发。目前底层存储计算性能层已实现设计节点间 MPI 多进程并行、节点内 OpenMP 多线程并行、指令集 SIMD 向量化并行,并通过 NUMA 优化。针对十亿级节点、千亿级边的超大规模社交网络图算法,将算法计算时间从小时级(甚至是天级)降低到分钟级,显著加快算法迭代速度;
在知识图谱与图计算算法层,我们结合业务落地经验,为平台集成了支持知识图谱图计算的算法工具集。其中异构图包含常见的 TransE、ConvE 和自研的 ConvR 等算法,同构图包含 LPA、Line、GCN、GNN 等算法。
在知识图谱业务应用层,TKG 提供各类知识推理模型服务,如用户画像、计算社会学、信用风控、个性化推荐、量化投资,以降低知识图谱落地转化门槛。
InfoQ:目前知识图谱在腾讯哪些应用场景有实际落地?在不同场景落地分别存在哪些难点和痛点?
吴睿:知识图谱目前在腾讯被广泛应用于用户画像、个性化推荐、信用风控、搜索等场景。其中知识图谱引入推荐,比较常见有基于特征与基于结构两种方案。前者主要是将知识图谱投影到低维度稠密的向量空间,再联合推荐算法学习;后者更加直接地使用知识图谱的结构特征。比如在王者荣耀信息流的推荐中,我们基于知识图谱结构的标签扩展算法,比现有的算法平均提高了 16%的点击率。
落地难点方面,基于特征的方案常遇到由于用户与物品特征维度过高,直接使用图谱特征提升不够显著的痛点。而基于知识结构推荐因为具有更好的可解释性和精确性,更容易在推荐召回策略中使用。但是实践中发现,知识图谱覆盖率是限制落地效果的核心痛点。
比如下图从攻略文章中我们抽取了(马可波罗,配对,太乙真人),但孙尚香和牛魔的关系并未抽出。如果采取额外从相关文章中抽取来构建知识图谱,成本很高。比如“17 赛季孙尚香的配对英雄”这样的动态变化知识,非常难找到相关文章。因此我们在实际应用中,采取了基于已有的知识图谱网络,通过知识推理补全业务所需关系的方法。最初我们采取了业界常用的 TransE 算法,但实践发现它对非线性的关系支持不好,所以我们又改用 ConVE 相关算法,最终取得了超过 20%的显著提升,而后又推动自研 ConVR 等相关算法进一步提升效果。 在最新的研究中,我们正在对知识图谱结构路径做嵌入,希望能更好地引入图结构信息、提高推理效果。
InfoQ:前段时间我们曾经发布过一篇探讨谷歌知识图谱应用情况的文章(《前员工揭内幕:10 年了,为何谷歌还搞不定知识图谱?》),即使是谷歌这样体量巨大、资源充足的公司,在将知识图谱用于产品和服务时依然会遭遇瓶颈和困难,更不用说中小型企业了。腾讯在构建知识图谱平台和落地知识图谱服务的过程中,遇到了哪些困难?其中最大的挑战是什么?你们是如何应对的?
吴睿:从知识图谱发展历史来看,知识图谱落地与产品和服务不仅有技术发展的局限限制,也有知识图谱应用价值转化的问题。
从知识图谱构建技术来讲,我们认为核心目标是降低成本。知识图谱构建技术从过去的完全人工编辑,进化到了场景化定制 NLP 知识抽取配合人工模板和审核的模式。我们在推进实践中,发现各行各业的知识图谱不仅需要非常专业的专家知识进行样本标准化,也需要定制化的 NLP 模型训练。生产知识图谱成本非常高昂,因此“如何降低客户以及合作伙伴知识抽取与构建的成本”成了我们的关键目标。通过整合腾讯内部技术能力,我们开发了腾讯云 AutoNLP 产品,希望让技术小白也能够在云上低成本、便捷地完成 NLP 相关任务。整体架构如下图所示。
在知识图谱应用方面,我们认为核心是提高效率。知识图谱作为图数据结构,如果想应用更多关联知识,必将带来更大的计算性能需求。在我们的历史经验中,最早通过图预测用户之间的关系,单次用 80 台机器计算了 1 个月。而业务场景迭代希望在天级甚至小时级完成,因此我们投入资源提升了图存储与计算性能,才能有效支持业务落地的应用计算场景。
最后是知识图谱应用设计,这也是知识图谱的关键挑战。我们认为知识图谱的价值在于做好乘法,即商业价值需要与业务场景价值相乘。通过提升该服务的价值来实现图谱的价值。比如在搜索场景中,目前我们最受好评的的是知识卡片功能,而在风控场景,实践显示,分析师越难人工理清的知识网络,图分析的需求则越大。比如税局希望在 4 千万的实体中发现拥有环路结构发票交易的路径,以帮助分析师筛选有偷税变票的嫌疑对象。
InfoQ:现阶段知识图谱在行业应用方面还有哪些问题亟待突破?
吴睿: 在泛互联网领域,目前知识图谱行业应用主要还是集中于搜索、推荐、画像等场景,即通过知识图谱关联更多信息,提供搜索推荐画像的准确率。从搜索落地经验来看,知识卡片、实体标注等直接向用户展示知识信息的模式更能体现知识图谱对于业务的价值。 因此在推荐应用领域,我们对于可解释化推荐理由的方向非常关注。
在会计税务领域,企业、商品、个人的关系天然形成了图网络,因此基于税务知识图谱的风控、知识问答非常值得突破。以税务稽查场景为例,它就是一个核心值图计算效率问题。如果用传统的 SQL 回答“某公司董事会第一控股人的子女所参股的公司的主营产品的竞争对手有哪些”,用时可能要超过 1 周甚至更长。
在医疗领域,腾讯目前构建了常见病与药物等垂直知识图谱,通过图推理的方式对疾病进行预测,作为医生的辅助珍疗手段。同时在医疗科研方面,基于医疗知识图谱的搜索与推理突破也非常受期待。比如药物疾病关系实验通常成本高昂,但通过知识图谱的关系推理能力提前推理排序,将待实验的组数从 10000 次缩小到 100 次也是非常有价值的。
InfoQ:未来在学术界和工业界,知识图谱领域分别还有哪些值得重点关注的研究方向和问题?
吴睿: 从工业界知识图谱落地应用需求出发,我非常看好知识图谱 schema 自动构建,以及知识图谱的图表示推理这两个研究方向。在知识图谱落地产业的过程中,我们发现需要花费大量的时间与行业专家一同制定行业知识图谱的 schema。以政务为例,需要梳理人员、部门、规则等相关结构并人工定义 schema。而当政务业务或是变动时,schema 也需要变动或者完全重构,我们似乎无法构建一个绝对完善的知识图谱,来满足业务动态变化的需求。因此我们正在基于聚类算法和强化学习结合的模式开发 schema 自动构建和根据反馈调整知识图谱的能力。
工业应用的另外一方面,从客户业务角度出发,对于知识图谱的规模并不是核心关注点,聚合相关且有效的知识、高效解决知识推理问题才是。即基于客户业务问题,聚合高质量知识,使用图计算推理最擅长的关联分析、风险传导、结构分析场景构建分析推理应用。 而传统的基于规则的知识推理不仅局限于人使用知识的经验边界,同时人工成本非常高。因此我们目前对于基于知识图谱的图表示、使用 GNN 进行异构图推理的能力非常关注。该方向可以根据问题需要,选取合适的知识路径解决问题,有希望实现问题与知识推理端到端的推理解决方案。目前腾讯云知识图谱平台已经实现了常见的 GCN 等图深度学习算法。值得注意的是,知识图谱是异构图,而传统图计算是同构图,打通知识图谱与图计算墙也是一个巨大的挑战。我们在应用实践中需要做切图采样才能有效使用。
如果从知识图谱未来长期应用来看,我非常看好医疗相关知识图谱及推理应用建设,特别是针对基因-蛋白质-人体代谢网络的知识图谱研究。 对于该场景的知识图谱研究,短期既可以加速药物研发速度,又通过推理预测降低药物实验成本,甚至未来可以有效地理解基因网络,开发针对性编辑工具控制网络,极大提升医疗水平。
InfoQ:当前人工智能的发展已经进入冷静期,知识图谱虽然历史也不短,但似乎一直关注度非常高。您认为知识图谱现在是处于冷静期还是火热期?当前知识图谱行业存在泡沫吗?未来这一情况是否会发生变化?
吴睿: 腾讯云今年与业界各位客户、专家有过深度的交流和项目合作,就我个人总结,我认为目前知识图谱正处于预爆发顶点。第一,在泛互联网的场景中,知识图谱已经在画像、推荐、搜索中通过前期数据和技术的积累,逐步完成了业务落地,未来会逐渐传播扩散到传统企业以精准搜索为例的场景。 第二,在智慧金融领域,知识图谱对于风控有天然优势,能快速吸引资本与企业踏入,积累行业垂直的数据与技术应用能力。 第三,在智慧医疗、智慧政务、智慧能源等新兴爆发领域,知识图谱通过智能问答场景切入,能够帮助客户梳理整理业务知识,通过机器显著降低初级问题的人力成本。
整体上看知识图谱行业正逐渐完成认知智能的奠基工作。流程上处于从与客户共同梳理业务场景的知识体系,到从多方数据源构建知识图谱的阶段。主要业务目标聚焦于知识图谱可视化管理为起点,逐步开发基于知识图谱的业务应用,如知识问答或业务经验规则指导的图分析模型。
对于知识的沉淀,我理解这是一个长期且必要的工作。客户会逐渐从业务数据化,走向知识化,最后实现智能化。 对比专家系统发展的历史,如果像 AlphaGo 一样显著超越人类能力的认知应用出现,应该会引爆这个市场。
采访嘉宾介绍
吴睿,腾讯高级研究员,腾讯云知识图谱与图计算负责人,已在政务、媒体、金融领域客户输出一站式知识图谱平台解决方案,具有多年大数据与机器学习研究与商业化应用经验,在腾讯、华为等场景从零到一搭建用户画像体系、精准营销 DMP、个性化推荐平台。目前专注于知识推理领域研究,推动知识图谱在基于图的画像、推荐、风控业务的落地。
福利时刻:
吴老师将在 11 月 21-22 的AICon大会上带来更多关于知识图谱的精彩分享,想要跟吴老师深入交流的,不要错过面基的机会。另外,大会还有关于机器学习、NLP、搜索推荐、智能金融等 50+最新落地案例,更有来自 AWS、微软、BAT、华为等国内外一线 AI 技术专家带来干货演讲,部分议题抢先看:
【蚂蚁金服】金融知识图谱在蚂蚁的业务探索与平台实践
【菜鸟网络】人工智能在智慧交通物流的技术演进之路
【阿里妈妈】工业级深度学习在阿里广告的实践、创新与最新进展
【微软小冰】人格化对话机器人的构建及在语音场景当中的实践
【百度】AI 大生产时代下的 NLP 技术创新与应用实践
目前大会9折售票倒计时5天,购票页面输入优惠码“aicon”还可享折扣价,抢票咨询:18514549229(同微信)
评论