写点什么

星环科技杨一帆:知识图谱的构建之路我们只走完了前半程

  • 2020-11-27
  • 本文字数:5060 字

    阅读完需:约 17 分钟

星环科技杨一帆:知识图谱的构建之路我们只走完了前半程

作为人工智能的一个重要研究领域,知识图谱的研究和发展已经走过了最初级的阶段。那么,知识图谱解决哪些其他技术无法解决的问题呢?它又面临着哪些新的挑战?

知识图谱人工和自动化构建各有利弊


作为人工智能的一个重要研究领域,知识图谱的研究和发展已经走过了最初级的阶段。2012-2013 年左右,谷歌 Knowledge Graph 产品的初步成形,开启了知识图谱时代。但实际上再往前看,知识图谱技术的早期落地成果是知识库,甚至 Web 2.0 的一些内容也属于早期落地案例之列。


从知识图谱的构建技术来看,它主要包含四个阶段:信息抽取、信息融合、信息推理和信息决策。在整个发展过程中,它经历了从人工群体智慧构建到自动获取构建的过程。对于现在的行业来讲,在构建知识图谱过程中,可能会遇到以下三种情况:第一种情况是数据比较少,没有信息,行业的数字化应用程度不够;第二种情况是信息特别多,但是这些信息被分割存储在不互通的各个部门中,这时候就会很容易出现数据孤岛的情况;第三种就是信息过于冗杂,我们需要从纷繁的信息中剔除掉非常多的噪音和无效的信号。针对这些问题,不同方式构建的知识图谱其实各有利弊。


对于人工构建知识图谱,它的好处可以简单地概括成三个特性:


第一个特性是专家级的知识系统。 因为人工的知识一定是专家经过多年的知识沉淀而形成的专家级知识。在 80 年代末,就已经有了这种专家系统——中医医疗,这其实就是专家知识系统在产业中应用的最简单案例。


第二个特性是可解释性。这种人工构建的规则一定有很强的可解释性,这是非常重要的一点。


第三个特性是在法律法规和监管意义上的合规性。 因为它是人工构建的,可以追责,可以进行审计。所以在合规上,人工构建有非常大的优势。


就自动化构建而言,虽然它也具有一定的专家知识性、可解释性和合规性,但是实际上它的这些特性比人工构建要弱一点。但它也有三个人工构建无法比拟的优点:


第一、它可以处理大批量的任务。这种大批量的任务其实是非常重要的,因为很多的时候,在非常初级的阶段我们不能依靠人工去做非常多的重复性劳动,而自动化很好地解决了这一问题。比如,在大量的贷前、贷中等金融审计和审批的工作中,其实很多是可以通过自动化的方式来完成的。


第二、它具有自适应性。让专家来人工构建形成的规则其实具有一定的滞后性。但世界时时在变化,我们的知识图谱如果不能跟上这种演进的思路,它将始终落后于这个时代。就比如在反洗钱或金融风控的业务上,作弊也好、风险也好,演进速度都是非常快的,纯粹靠人工构建规则并不能满足这样的业务需求。因为所有的风险一定是要及时地覆盖,及时地处理。对于营销或者是对于其他的业务场景也是同样的道理。能料敌于先,有更好的自适应性,是自动化的明显优势之一。


第三、它具有多源异构的特点。人类的每个专家都有自己的一个领域,想突破领域边缘其实是非常难的。但是这对于自动化来讲则易如反掌,只需利用各种办法,或者是利用各种框架进行多元自动化的处置就能完成。这是自动化构建知识图谱另外一个比较强的优点。


当然,自动化构建也并非就是完美的,它的缺点主要在于可解释性和合规性上。自动化一定是会存在一些的问题。但这也是我们为什么说人工和自动化是需要相辅相成来合力构建我们知识图谱技术的原因所在。


知识图谱技术发展到现在,业内不少声音认为,其已经来到了通用和多源异构的阶段。


星环科技的 AI 负责人杨一帆分别对知识图谱的通用阶段和多源异构阶段进行了解释。他认为,整体而言,知识图谱可以分成几个阶段,包括信息(数据)抽取、信息(数据)融合、信息推理,最后则是辅助决策。所谓的通用阶段,一方面是指知识图谱在解决业务难题时能提供一个通用的解决方案;另一方面是指它属于强人工智能,目前还处于一个比较初级的发展阶段,需要所有 AI 和大数据从业者朝着一个共同的目标去努力。

 


所谓的多源异构,第一步,我们要解决信息抽取的问题,就是从多媒体数据中提取有效的信息,从基础场景的信息中提取我们想要知道的业务信息。第二步,对应着知识图谱的第二个阶段,就是信息的融合,即利用知识图谱将不同来源的信息融合在一起。但这是一个极其复杂的过程,因此我们现在很大程度上还处于第一阶段和第二阶段。

知识图谱能解决哪些其他技术无法解决的问题?


作为知识图谱技术的底层支撑,数据和算法在知识图谱中至关重要。杨一帆认为,数据和算法是相辅相成的关系。知识图谱中的数据和算法,就相当于我们这个时代的大数据和人工智能,两者的重要性是一样的,缺一不可。光有数据并不能体现出我们真正的价值,而光有算法,就相当于只是拥有无源之水。在知识图谱中可以在另一个维度将数据、算法划分成我们的数据资产、算法资产。其再加上我们的业务经验资产就构成了完整的知识图谱体系。对于数据科学或实际业务而言,我们常说“Garbage in,garbage out“,即进来的数据是无用的,则出去的分析结果也是无用的。显而易见,数据质量至关重要。当我们拥有的数据越多,我们就有越多的渠道补充我们的信息,去填满一些知识漏洞等数据质量问题。但是光通过数据采集等手段并不能完全解决数据质量问题。在知识图谱的四个阶段中,信息融合、推理和辅助决策这几个环节都需要算法起主导作用,同时也需要大量的数据做支撑。所以有时候,算法也会影响到我们数据源本身。


在技术领域,大家从来都认为“数据是一,算法是零”。如果只有算法,我们拥有的只是零,其永远不能体现出较强的价值和业务导向,甚至无法帮助我们进行产业升级和决策。但是如果只有数据,我们永远停留在一,就不能够进行更大的升级。就正如业界所流传,数据决定了我们技术应用的上限,而算法则能无限逼近这一上限。数据和算法两者缺一不可,无论是一还是零,都是我们必须要有的。


我们现有的很多人工智能和大数据技术,能解决的都是单一领域上的一些特定的问题。对于知识图谱来讲,它和其他的技术有一些显著的区别,它解决了其他技术不能解决的难题。对此,杨一帆列出了三点说明。


他认为,知识图谱能解决的第一个比较重要的问题就是知识和数据的孤岛。 对于其他的技术来讲,在单一领域中进行分析、建模、处置、研究都做得比较好。但是对于跨领域的或跨部门的问题,没有一个很好技术能解决。拿人口普查来举一个比较简单的例子。人口普查并不是涉及一个单独部门的行动,它会涉及社会学、经济学等,需要把多种多样的知识进行汇总,形成知识库。知识库就是信息推理和抽取,还要进行信息融合,甚至要做一些推测,比如人口的组成,人口对今后产业的影响,甚至是分析知识库来帮助国家进行一些辅助的决策。利用知识图谱可以很好地打破领域墙和部门墙,在这一点上其他技术暂时无法替代它。


第二个比较重要的点是信息的融合。信息的融合与知识孤岛和数据孤岛存在一定的关联。其在金融领域信息融合提及得比较多。因为金融事件有多种类型的信息,包括交易侧的信息、客户信息等。这种信息虽然不是知识孤岛,但信息量非常多,过于冗杂。那么,如何剔除信息中繁冗的信息来提取出主干信号?如何进行信息的筛选、融合?这个时候知识图谱作为一个新兴的工具和技术,就能很好地解决上述问题。


最后一点就是知识图谱对于推理和决策进行强有力的支撑。 别的技术或许也能做到一部分的推理和决策。但是知识图谱从根本上来讲,就是融合多方的信息来源,以及多方的可能性,去做推理和更精准的决策,这是别的技术暂时无法替代的。就拿关系型数据库来讲,虽然它与知识图谱有一定的相似性,但它其实无法解决多度关联的问题,也很少去涉及多源异构的问题。

知识图谱目前面临的技术难题和突破口


通过知识图谱,不仅可以将互联网的信息转化成更接近人类认知世界的形式,而且可以让我们更好地组织、管理和利用海量信息。目前支撑智能语义搜索、移动个人助理以及深度问答系统等应用的核心技术正是知识图谱技术。那么,面对不同的行业、不同类型的知识图谱,我们是否有一个通用的算法或框架来满足各种需求?对于这个问题,杨一帆认为,通用的知识图谱,想要落地还会面临一些挑战。在技术领域,还没有任何一种算法能够解决所有问题,知识图谱也是如此。


知识图谱除了以上提到的四个过程:信息抽取、信息融合、信息推理和辅助决策外,还需要做一些信息的分类、搜索、推荐等工作。互联网飞速发展的当下,算法、框架都在不断变化,知识图谱也需要紧跟时代发展步伐,实时更新,从而处理更复杂的关联关系等。在业界上,如何构建一套通用的知识图谱也一直是不同行业的 AI 从业者们尝试去解决的问题。


目前除了通用知识图谱的构建方面还存在一定挑战外,工业级知识图谱的构建在技术上也有一定掣肘。在杨一帆看来,其中的技术难点主要表现在三个层面上。第一是数据、第二是算法、第三是 AI 工程化。


先讲一下数据。 工业级知识图谱构建的第一个难题就是需要获取数据的源非常多,需要我们深入到业务线上去获取它。有一些行业数字化做得比较好,获取数据源就比较轻松。但是在有些行业的工业场景中,数据其实并不是非常地干净,或者数据获取的手段也比较有限,甚至它就是多媒体数据,而且这类多媒体的数据质量还很差。如何获取这类质量不过关的数据,是一个非常麻烦的事情。这个时候就需要和 AI 的其他技术方向进行广泛的合作。


工业级知识图谱对存储和查询,有非常高的要求。首先,存储的体量会非常大、节点类型非常多,关系非常复杂,存储的压力巨大,查询的条件可能会非常复杂。另外,工业级的知识图谱,对性能的要求更高,这是不可能通过一个非常简单的手段就能解决的。所以这一部分需要做的努力非常多。


第二点就是我们目前的算法还仅停留在认知领域,就是理解数据、理解场景的一个程度。而对于推理,大家虽都在做这方面的努力但目前仍处于不成熟的阶段。数据和算法首先要理解数据,理解场景,理解业务。但是如果在真实的工业场景中,我们要进行更大的产业升级、需要对业务进行放大、提炼,那么除了理解我们还需要推理。推理和辅助决策这两个过程是非常难的,在算法上需要长时间的深耕和努力。


除了算法外,在工业级的知识图谱中,小样本的问题也更加严重。如果在实验室或者是研究阶段,小样本并不是一个大问题,因为没有人特别关注这个问题。但是在实际的工业场景中,小样本是一个非常严重的问题,因为可能会造成大的事故。我们该如何认知它,如何处理这些所谓的“黑天鹅”事件?这是算法上需要做极大努力来突破解决的,因为涉及到认知科学,所以还有很长的路要走。


最后一点,就是 AI 工程化。 工业级和企业级的知识图谱往往会出现知识或部门的限制,有需要碎片化的问题,有需要规模化的问题,针对这些问题,如何将算法和数据联合起来?这时候我们就需要工程化、一体化、平台化的工具解决所有的问题,也就是 AI 工程化。这也是需要 AI、大数据、以及业界的所有从业者一起去努力解决的问题。


提及知识图谱未来的发展方向时,杨一帆表示,未来,知识图谱将在认知领域去做到一个比较好的深耕。他举了一个比较有意思的例子——IP 的挖掘。现在大家都在讨论知识产权,那么,对于知识产权的挖掘,其实不仅是说我们要把一些信息或政策进行解构、进行规格化。这只是第一步。我们还要去挖掘了解事情发展的整个脉络到底是怎么样的?技术发展从无到有,再到更高阶到底是如何发展起来的?这些也都可以通过知识图谱进行刻画。当然,这只是一个简单的例子,整个认知领域会更加复杂。


杨一帆认为,知识图谱未来将迎来的第二大应用场景,是在一些垂直领域上的深耕和应用。比如现在国家推行的就是大数据中心的建设和升级。这个时候知识图谱可以发挥更大的作用,除了数据上的统一,我们还可以进行更多数据上的挖掘和人口普查,这对我们判断经济态势等问题至关重要。另外,知识图谱在今年的抗疫之路上也已经落地了一些应用成果,如追踪确诊病例的行踪轨迹从而找到密切接触者等。


知识图谱对于企业本身的赋能、决策,或者是说在金融上的量化作用可见一斑。而工业级知识图谱真正要成为的不是一根所谓的“通用支柱”,而是要实实在在深入到每一个产业,每一个行业中,帮助具体的行业解决具体的问题,帮助大家更好地提高效率,提高生产力。


嘉宾介绍:


杨一帆,星环信息科技 - 人工智能产品研发总监。中国科学技术大学统计学本科和硕士,University of Kentucky 统计博士学位;曾在美国银行合规风险部门和阿里巴巴搜索事业部对抗智能团队任职;目前就职于星环科技 - 人工智能产品部。有丰富的统计学习、深度学习、图嵌入研究经历。有十余篇论文发表于 SCI 期刊和会议,涵盖统计、生物信息、机器学习中图嵌入、强化学习等方向。参与和主导多项企业级人工智能产品研发和落地工作。

2020-11-27 14:091564
用户头像
李冬梅 加V:busulishang4668

发布了 981 篇内容, 共 586.4 次阅读, 收获喜欢 1139 次。

关注

评论

发布
暂无评论
发现更多内容

NCF框架如何实现WebApi(四)

MartyZane

实战 签约计划第二季 NCF DDD框架 WebApi

NCF 如何对接三方的功能(五)

MartyZane

支付 短信 签约计划第二季 NCF DDD框架

尝试

Nydia

用 Go + Redis 实现分布式锁

万俊峰Kevin

微服务 高并发 分布式锁 go-zero Go 语言

Python Qt GUI设计:QScrollBar类实现窗口水平或垂直滑动条效果(拓展篇—4)

不脱发的程序猿

Python qt GUI设计 Qt Company 滑动条效果

使用golang开发数据库周边工具

lixiaofeng

签约计划第二季

8千长文解决前端资源下载全场景问题

梁龙先森

签约计划第二季

聊聊 Kafka: Consumer 源码解析之 ConsumerNetworkClient

老周聊架构

签约计划第二季

聊聊 Kafka: Consumer 源码解析之 Consumer 如何加入 Consumer Group

老周聊架构

签约计划第二季

C++实现unique_ptr

行者孙

c++ DIY 签约计划第二季 unique_ptr

关于分布式事务的思考

yuexin_tech

数据大体系(四)——标签

圣迪

大数据 标签 标签体系 数据体系

Python Qt GUI设计:QMdiArea和QMdiSubWindow类实现多文档界面(拓展篇—3)

不脱发的程序猿

Python qt GUI设计 Qt Company 多文档界面

【docker 总结】第一篇 - docker 简介和安装

Brave

Docker 12月日更

[Pulsar] Broker处理消息确认

Zike Yang

Apache Pulsar 12月日更

NCF 实战应用合集全解析

MartyZane

实战 内容合集 签约计划第二季 NCF DDD框架

Maven 3 进行安装

HoneyMoose

C++构造那些事:三五O法则

行者孙

c++ 签约计划第二季

Prometheus Exporter (二十五)HAProxy Exporter

耳东@Erdong

Prometheus 28天写作 exporter 12月日更 HAProxy

C++软件开发中的时间

行者孙

c++ 签约计划第二季 chrono datetime iso8601

C++ 三种智能指针的使用场景

行者孙

c++ smart pointer 签约计划第二季

C++的explicit关键字

行者孙

c++ 签约计划第二季 explicit

Maven 如何打包 Spring Boot 项目打包的发布 Jar 名字

HoneyMoose

Confluence 如何在页面中显示目录

HoneyMoose

20行Python scrapy 代码,去采集【蓝桥】训练营

梦想橡皮擦

12月日更

每个前端都值得拥有自己的组件库,就像每个冬天都拥有春秋裤⛄️

速冻鱼

前端 组件库 签约计划第二季 12月日更

2021年最委屈的一件事

将军-技术演讲力教练

线程方法:sleep( )、wait()、join( )、yield( )的区别

JavaEdge

Dubbo 框架学习笔记三

风翱

dubbo 12月日更

Maven 如何打包 Spring Boot 项目

HoneyMoose

Go+ 上下文处理教程(5.3)

liuzhen007

28天写作 12月日更

星环科技杨一帆:知识图谱的构建之路我们只走完了前半程_文化 & 方法_李冬梅_InfoQ精选文章