AI 技术的发展和大数据时代的到来令知识图谱的自动化构建成为可能,尽管现阶段还面临着一些挑战,但已有不少企业在积极探索和尝试自动化构建技术。近日,AI 前线采访了来自明略科技和国双数据科学团队多位专家,他们分享了实现大规模自动化知识图谱建设的技术与应用实践。
人工构建还是机器构建?
知识图谱是新一代知识工程技术的代表,传统的知识工程重度依赖人工干预,知识建模和获取主要从领域专家处获取专业知识。自 2012 年谷歌提出"知识图谱"的概念并运用到搜索引擎后,知识图谱的构建技术与应用引起了学术界和工业界的广泛关注。
最近几年,随着 AI 技术的发展和大数据时代的到来,知识图谱的自动化构建成为可能,从构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。自动化构建知识图谱的特点是面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取互联网上的信息。
明略科技科学院知识工程实验室负责人张杰在接受 AI 前线采访时表示,对企业而言,知识图谱的构建,如果自动化程度和准确度都能很高,具有两方面意义:
为企业拓展数据规模增加数据连接。知识图谱可以连接内部结构化数据、物联网数据、外部非结构化数据,进而可能成为下一代企业管理数据的主流技术路线;
另一方面,提升数据的挖掘深度和利用效率。以往多数企业做数据挖掘项目,都仅仅对静态数据做浅层加工得到标签,然后再训练模型。以图结构为主的关系数据、以时空序列为主的动态数据并没有得到充分利用。
人工构建和自动化构建各有优缺点。人工构建图谱耗时耗力,构建出的图谱规模较小。知识图谱发挥作用需要依靠规模效应,如果单纯依靠人工构建,容易陷入此前专家系统的瓶颈,导致实用能力有限,无法发展起来。而自动化构建处理速度快,可以减少人工、时间、成本,更适应大数据时代的应用要求。
不过以目前的技术水平,自动化构建的准确率还低于人工,一般情况下减少人工会导致准确性下降。在一些结构化不强,需要人工理解才能判断的场景,如果缺少人工参与,将会影响知识图谱的质量。
在知识图谱构建的主流技术路线中,人工对于其中几个环节仍不可或缺。如在从结构化、半结构化数据映射为知识图谱的工作中,主要工作量在于工程师梳理映射逻辑和开发映射规则,然后机器去批量化的自动执行;在从非结构化文本中自动抽取本体的工作中,自动化程度较高,在标注训练数据集上,准确度往往难以保证商用,仍需人工校验。
国双数据科学团队负责人表示,现阶段要兼顾效率和精度,最合理的方式是半自动化结合人工。 目前业内构建知识图谱很少见纯人工和全自动方法,采用的主流方式是半自动结合人工方式,约占 80%以上。
半自动结合人工方式操作的流程是,前期借助人工标注适量数据,训练模型自动化抽取,最后由人工进行审核或验证。
目前商业化的知识图谱,均有部分自动化构建能力,实现动辄千万甚至上亿数据规模的知识图谱。一般手工部分出现在知识图谱构建早期(冷启动),随着图谱规模的扩大,依据知识推理和机器学习,自动化程度会逐渐提升。后期的知识图谱自动更新主要集中在动态更新实体数据、发现新的实体,从新入库的各类原始数据中获取新的知识等环节。
现阶段,一定程度的人工参与加机器自动化的方式可能在相当长一段时间内会是主流。图谱结构的定义依赖于具体应用场景和要解决的问题,需要人来定义。有些场景对数据质量要求极高,如公共安全、金融、医疗等领域做知识融合要通过人工校验来最大程度保证可靠性。
张杰表示,如果一些场景的知识图谱可以满足商用要求( TO C 场景下准确率要到 95%,TO B 场景下要更高),就可以全面交给机器来进行自动化构建。他认为,To C 场景下的检索、推荐,应该会很快实现全面自动化,而 To B 场景下的推理、决策,通往全面自动化还要很久。
国双认为,在一些垂直的有限领域如司法等可能将在未来 2~3 年实现可自动更新实体数据的知识图谱体系。
如何实现大规模自动化的知识图谱构建
知识图谱自动化构建流程与技术
尽管实现全面自动化构建知识图谱还有很长的一段路要走,但已有不少企业在积极探索降低人工参与度,提升自动化构建水平,如明略科技推出了人类智能、机器智能、组织智能三位一体的 HAO 智能系统,国双通过自研的知识抽取算法设计平台完成知识抽取流程设计。
这里以国双为例,说明知识图谱自动化构建的方法。
自动化构建流程主要包括本体创建 –> 数据标注 –> 模型训练 –> 知识抽取 –> 知识融合 –> 知识推理 –> 知识更新等环节。具体来看:
数据标注和模型训练环节,通过知识抽取算法设计平台完成;
在知识抽取环节,以相对复杂的非结构化知识抽取为例,国双运用的技术是将标注数据清洗扩增,使用基于 Encoder 和 Decoder 的端到端三元组联合抽取模型进行知识抽取。针对没有标注数据的冷启动知识抽取需求,构建了一套利用依存句法分析算法实现无监督情况下抽取三元组的系统。
在知识融合环节,国双构建了一套结合传统字符串相似度和图卷积网络的融合系统,将知识图谱经过 GCN 编码后得到表示向量,通过计算表示向量相似度和实体的字符串相似度,并结合 Sieve 模式高效筛选出融合结果。
在知识推理环节,在基于规则和基于算法的知识推理方面做了一些尝试,例如通过业务本体框架中的相关约束来做相关推理。
在知识更新环节,使用知识抽取实验平台把新的增量数据去重新训练模型,且依靠知识抽取算法 API 来实现自动的知识更新。
张杰表示,知识图谱自动构建的过程中主要运用到了自然语言处理、小样本训练、领域迁移等关键的 AI 技术。自动化构建知识图谱有四大技术重点:
如何自动化的从结构化数据库映射为知识图谱并做知识融合;如何通过小样本学习和领域知识迁移的技术减少人工标注成本;如何从非结构化文本中做篇章级的事件抽取和多事件关联;基于深度学习的知识表示在各个构建的环节的应用。
针对结构化和半结构化数据,明略科技提出了 HAO profiling 技术,对来自不同数据源的结构化/半结构化数据进行汇聚、组织,试图理解数据,解决数据冗余、冲突等问题,对数据进行标准化、连接,形成数据的知识图谱,进行可视化展示,并以统一视图服务查询、计算等应用需要。
针对非结构化数据,明略科技设计、开发了一套算法工具包:HAO 图谱。HAO 图谱包括关系抽取、事件抽取、实体对齐、网络结构嵌入式表示、时空序列数据表示、图谱摘要、基于图谱的短文本生成等算法。
构建挑战
知识图谱在构建过程中面临着诸多挑战。
张杰指出,自动化构建主要的技术挑战点有三项:信息丢失、信息冗余、信息重叠。信息丢失是指应该抽取出来的信息没有抽全。信息冗余指在输入文本中不存在但在背景知识中存在的额外概念和关系。信息重叠是指能否将原文中距离跨度较大的属性归结到正确的实体上,并对动态变化的属性进行适当存储。
此外,知识图谱构建成本高昂,小样本的抽取和构建问题,也是业界公认的难题。
对于小样本的抽取问题,在国双看来,从小样本中进行抽取,很难采用直接数据驱动的方式,一般需要借助知识来降低对数据的依赖。知识辅助的方式有两种,一种是人工将知识写入系统,即规则编码等方式;另一种是机器进行知识推理,也就是基于背景知识进行概率推理,这个方法在消歧或实体链接、关系预测上经常使用。
人工构建一个知识图谱的成本是非常高的,降低成本从某种程度上可以说是构建过程的核心和关键。明略科技和国双分享了自己的解决方案:
明略科技认为,降成本需要做到行业经验复用和技术工具复用。为此,在行业经验复用方面,明略科技成立了行业咨询团队,形成了面向行业的最佳实践和成功案例,且投入到国家标准、行业标准、联盟标准的制定中。
技术工具复用方面,明略科技将技术体系(行业交付团队、技术部、科学院)的技术能力全集团范围内共享打通,科学院的成果会输出到技术部,技术部形成公司级的产品组件,行业交付团队初次面对新行业时会做些定制化开发,再次复用后会凝练为产品并回流到技术部。
国双认为,构建知识图谱的成本需要考虑三大因素:人,模型,数据。首先由人来创建正确有效的本体,标注少量数据;利用数据增强等方式来训练机器学习模型,再利用模型处理有标注和无标注数据;最后人工查验,在保证标注精度的情况下最大程度减少人工干预,最终实现控制成本、做大规模,同时保证知识图谱的质量。使用知识抽取算法设计平台,可以通过平台化的方式设计知识抽取流程,在设计过程中流程化地预估各个方案的预期结果和成本,最终通过科学决策选择性价比最好的方案。
应用实践
目前自动化构建的知识图谱主要运用在智能问答、智能推荐、语义搜索、网络行为动态分析等场景中。由于需要大量领域专家的干预,很多特定领域的知识图谱自动化构建的进展有些缓慢,尤其在一些小规模、应用场景复杂、专家知识密集的场景。
但知识图谱需要运用到广阔的业务场景里才能够发挥出它的真正价值。
据了解,明略科技一直在营销、公共安全、数字城市、工业、金融等领域探索自动化构建行业知识图谱。明略科技的 HAO 智能系统在以人为本、人机协同的基础上,加入了面向行业应用、具体细分领域的 Organizational Intelligence。
该系统中的结构化数据通用治理平台 CONA(关联所有数据),可通过设置数据转换规则,结合数据多值溯源和融合策略,自动完成标准化对标,实现数据治理自动化,这能够大大提高行业知识图谱构建效率。以公共安全领域实际数据治理为例,业务系统中近千张表,传统方法和工具做图谱构建可能需要半年以上的时间,而 CONA 能够缩短到 2 周。
张杰介绍,在协同推理方面,明略科技采用专家规则加数据驱动的方式形成了行业因果图谱,以便于对未来事件的走向做预测。这一技术今年有望应用在复杂度较高且客单价较高的行业中。
国双从 2016 年开始在司法领域构建知识图谱,并逐步扩展到了营销领域和工业领域。其中,司法知识图谱是目前做到技术成熟度最高和规模最大的。
在构建这个知识图谱的过程中,由于知识来自于文书库、法律法规库和司法专业知识库等多个来源,存在知识重复和指代不明等问题,为了做到自动化、高质量地构建知识图谱,国双针对这些问题运用层次聚类和基于密度的聚类方法,实现了实体间的对齐和内部消歧,消歧的正确率达到 98%。
“知识图谱的构建是一个复杂的系统工程,不可能通过某一项技术适配所有场景。综合来看,解决这个问题需要以技术为基础,构建工具体系,然后面向场景进行系统设计”,国双数据科学团队负责人表示。
结束语
通过以上专家的分析,可以预见的是,大规模知识图谱的自动化、高质量构建将成为重要的发展趋势。
张杰认为,要实现上述目标,至少需要三方面的能力:
算法把控能力:知道各类算法的适用场景和算法所能达到的上限大致在哪里,不盲从所谓的主流,不迷信所谓的前沿,实际场景下有效的系统往往是多种技术方案共同作用的结果;
跨层并行能力:从原数据到图谱应用是个很长的链条,并不是所有环节在处理大规模数据时都能够独立的做并行化处理,如何跨层做联合优化,需要架构的设计者打通技术栈;
业务理解能力:技术人员要对所属行业和所面临的场景需求要有很好的理解,才能在投入与产出之间做出良好的平衡。
嘉宾介绍 :
张杰,明略科技科学院知识工程实验室负责人,天津大学本科、硕土、博士毕业,研究方向为机器学习、自然语言处理、知识工程,发表学术论文十余篇,发明专利八十余项,曾就职于华为诺亚方舟实验室,后作为联合创始人创办金融科技公司并任 CTO,曾主持搭建百科知识问答、对话机器人、推荐引擎、决策引擎、大数据风控等多项系统,累计创造商业价值数亿元。
国双数据科学团队,经历了五年多的发展目前成员共计 30 多人。所有成员均来自国内外一流大学,包括数据科学家、机器学习建模专家、计算机视觉专家、自然语言处理专家、语音工程专家等。目前数据科学应用主要服务能源、汽车、金融、快消、政府、司法等行业。
评论