写点什么

构建行业知识图谱切勿操之过急,这里有三大前提条件

  • 2020-03-08
  • 本文字数:5173 字

    阅读完需:约 17 分钟

构建行业知识图谱切勿操之过急,这里有三大前提条件

回看 2018 年,当人工智能经历了语音识别、图像识别两轮热炒后,知识图谱等认知智能成为最火热的人工智能细分领域。在这波浪潮中,大数据公司纷纷踏入认知智能领域。


当其他公司还在大谈认知智能概念时,百分点已经基于 NLP、知识图谱等技术在公安、媒体、快消零售等领域出现落地案例。



近期,爱分析对百分点首席算法科学家苏海波博士进行访谈,他对知识图谱当前落地场景、面临的挑战,以及百分点在知识图谱领域的实践进行了系统阐述和分享。

01 基于认知智能技术 构建全新决策引擎

百分点作为一家大数据和认知智能领域的标杆公司,底层大数据基础平台产品 BD-OS 经过多年打磨,可以提供很强的数据接入、存储、治理等数据处理环节支持能力,从而支持百分点在公安、政务、快消零售、融媒体等多个领域成熟的落地应用。


但在百分点与各个领域客户深度合作过程中,无论是客户还是百分点自身,都产生了新的需求。


第一,传统数据仓库更多是对结构化数据处理能力强,对非结构化数据处理能力较弱,但大数据深度落地行业时,需要进行行业深度数据挖掘,处理非结构化数据能力不可或缺。


第二,大数据落地应用从监测、洞察逐步迈向分析、决策过程中,不再是像传统 BI 一样,给出报表和分析结果,由业务人员做进一步决策,而是机器本身要能做一些简单决策,需要机器更加智能,能够理解业务逻辑。


第三,当大数据、AI 更加贴近应用时,客群正逐步由 IT 人员变成业务人员,需要降低大数据、AI 的使用门槛,让技术平民化,获得更好的用户体验。


基于上述需求的出现,百分点逐步将 NLP、知识图谱等技术加入到决策引擎中,从而满足不断产生的新需求。


针对数据分析工具,百分点在传统 BI 分析工具中加入了智能交互分析,分析人员不用再写 SQL 语句,直接用自然语言来实现查询,这进一步降低了分析工具的使用门槛。



在落地行业应用中,百分点将动态知识图谱技术应用到公安、政府等行业,从而降低了公安等行业的数据治理工作量,能够实现快速对异构数据的处理。同时,NLP 技术在零售快消领域的落地,可以通过对海量网站上用户评价等文本数据进行处理,从而更加精细地分析用户行为,指导零售客户更好地了解用户反馈,做产品改进。

02 应用先行,百分点深度迁移学习将数据标注成本降低为原先的 10%

2018 年知识图谱技术大火,很多传统大型企业都在试水知识图谱,但在实际落地时遇到了不少挑战。


构建知识图谱的三要素是实体、属性和关系,其中第一步是定义实体,而定义实体必须要与上层应用结合,从应用出发去考虑实体建立方式,同时必须与业务人员配合,一同完成实体定义。如果不考虑应用场景,直接从构建知识图谱出发,那么,当实体和关系过少则无法满足应用需求,当实体和关系过多则模型构建成本过高。


百分点在落地知识图谱时,也更多的采取应用先行的策略。以公安行业为例,百分点通过和省市级公安局合作,按照“人、物、组织、时空、虚拟标识”等维度将公安领域的数据映射到数字世界,实现了公安领域的动态知识图谱构建。


这其中,百分点的优势在于,一方面,百分点从 2013 年开始服务传统企业,对传统企业的应用场景相对了解,同时与很多企业建立了长期合作关系,双方基于垂直场景定义实体、构建知识图谱的路径是可行的。


另一方面,依托百分点的全栈大数据能力,尤其在底层数据平台的能力,经过多年的积累,数据治理经验丰富,因此可以很快接入构建知识图谱所需的各类数据。


除了上述两点,百分点在 2018 年发布的深度迁移学习技术同样起到了关键作用。构建知识图谱中数据标注会耗费大量工作和成本,在许多专业的垂直领域,必须要通过行业专家来实现数据标注,这样就会带来标注成本的显著提升。


百分点通过深度迁移学习技术,将数据标注成本降低为原先的 10%以下,分析效率大幅提升,更好地支持公安、零售等领域的行业知识图谱落地。

03 大数据渗透高的行业 更容易构建知识图谱


爱分析:我们会把 NLP 和知识图谱结合起来看,从您的角度来看,知识图谱和 NLP 存在哪些差异?


苏海波:二者有关联也有差别,主要体现在于构建知识图谱的过程中。公安领域主要是用知识图谱技术基于结构化数据来构建,其实跟 NLP 关系不大。但在公检法、媒体出版、快消零售、司法等诸多领域,还需要很多的非结构化数据来构建知识图谱,当这种非结构化数据去构建实体和关系的时候,就需要用到 NLP 技术,才能把知识图谱构建出来。


爱分析:构建知识图谱,定义好实体、属性和关系是由百分点决定的?


苏海波:这些更多的是由业务方来决定的。业务方要去构建一个知识图谱的时候,首先要定义好 Schema,譬如公安领域要定义好人、物品、组织等,每个实体还会有对应的属性,比如人的性别、年龄、学历等。


公安的知识图谱是对现实世界中实体和实体之间关系的刻画。比如人和人之间会有关系,同学关系、家属关系、同事关系;人和物之间也有关系,比如人和车、人和电话等。


在构建知识图谱之前,一定要先想好应用,要解决什么问题。知识图谱现在应用包括搜索、推荐、问答、关联分析、决策等等几种典型的,例如可以将知识图谱的关联分析应用在公安领域。


想好应用,定好 Schema 之后,接下来要准备数据,比如公安领域可能会有运营商的数据、人口的身份数据、互联网上抓取的数据等。然后,按照定义的 Schema,从非结构化数据和结构化数据中,抽取出各种各样的实体、属性和关系,进行知识融合,存储到图数据库中,去支持上面各种各样的应用。


爱分析:像公安、媒体、司法等客户,他们习惯于一个应用建立一个知识图谱,还是会整体建立统一知识图谱,支撑全部应用场景?


苏海波:在公安和司法行业,如果所有应用依赖的数据和知识是复用的,它们可以共享一套知识图谱。而在媒体出版行业,不同的应用场景,构建的知识图谱可能会有区别。


爱分析:哪些行业是做数据治理后,很容易就会产生初步效果的?像医疗这种因为数据治理效果不明确,所以从数据治理切入不太容易。


苏海波:投入产出比较好的第一个肯定是金融行业,可以基于知识图谱做风控,现在落地案例会相对多一些。


第二个是公安行业,公安数据是要细化到每个人身上,把人的所有数据关联起来,辅助去做案件推断,它在知识图谱的落地只是时间问题。国内公安现状是,数据割裂比较厉害,目前阶段都在花比较多的时间做知识图谱,这对以后肯定非常有价值。


爱分析:所以,本质上还是大数据渗透比较好的行业,用 NLP 把底层数据治理做得更好,这种客户会更愿意接受?


苏海波:对,我们在做的零售快消行业,也是基于海量数据做分析,比如电商数据、微博数据、帖子数据等,从中分析大家讨论的哪个产品、哪个品牌、哪个型号、哪种属性以及对应的情感倾向,本质上采用的也是知识图谱技术。基于这些数据,就可以知道消费者对品牌、型号等产品非常细粒度的评价,去指导产品的改进方向。

04 知识图谱落地有三大前提条件,2B 领域需要行业知识图谱

爱分析:基于知识图谱会出现一些新的公司吗?


苏海波:知识图谱领域,目前没有看到哪家公司纯靠技术,就能很好的在行业落地。


第一,知识图谱落地不单单只是个技术问题。我们在跟很多客户聊的时候,他经常会说你帮我建个知识图谱,但对知识图谱具体解决什么业务问题,基于什么数据来做,到底能够构建成什么样,其实很多时候客户是不太清晰的。


第二,很多技术供应商虽然有 NLP 技术,或者知识图谱技术,但他不懂客户的业务,对知识图谱真正怎么落地、要满足什么条件才能落地,很多企业对这些认知还不太明确。


知识图谱项目落地要满足一些前提条件。


第一,应用场景要具体明确,知识图谱通常的应用包括搜索、问答、关联分析、决策分析等,应用先别想得太复杂,越简单越具体的应用,更加容易落地。对于应用场景没有想清楚的知识图谱项目,往往很难落地取得成功。


第二,应用依赖的领域知识有清晰的边界,指的是应用依赖的领域知识能够由客户内部的数据源结合外部的数据源进行覆盖,这些数据源越具体越好。


第三,需要人工介入的工作量是可控的,如果应用场景对于知识图谱有苛刻的质量需求,例如医疗行业中药物对应的病症是不能出错的,或者是知识图谱构建的粒度很细等等,这些都需要较多人力介入,可控是指对应的人力成本不能超过客户的承受范围。


爱分析:刚才提到的知识图谱应用,哪些会相对困难一些?


苏海波:知识图谱早期是由 Google 提出,目的是提升搜索效率,直接看到对应的结果。所有互联网公司,只要它们有足够的用户量和流量,结合知识图谱技术对搜索、推荐的效果进行提升,这是非常有价值的。


对传统行业来说,知识图谱一定要考虑性价比,之所以现在知识图谱在各个领域落地案例不多,是因为很多行业客户对知识图谱能解决哪些问题,满足哪些条件,其实是不太清晰的。第二,很多技术供应商也不是很清晰,一上来先是构建一个大的知识图谱,然后再去想应用,这种项目通常会失败。


目前从实际落地来看,互联网公司的搜索、推荐、问答等场景落地会比较容易,金融行业也在逐渐落地,其他行业如公检法、媒体出版等等,相对会慢一些。


在知识图谱的几类应用中,决策是最难的,基于认知智能做决策一直以来是人工智能想要达到的目标。


爱分析:搜索、推荐为什么可以做成比较通用的场景?


苏海波:因为这种是 2C 的,用户有这个需求,在流量足够的情况下,它的投入产出比很高。但对 2B 的客户来说,能够带来的价值提升是个疑问,企业需要考虑投入的性价比。


爱分析:知识图谱的构建成本大概是怎么测算的?


苏海波:如果只算从数据中抽取出实体、属性、关系的成本,跟实体、属性、关系的数量有特别大的关系,假设要构建模型,先要做数据标柱,每种模型需要 5000 条标注数据,哪怕只有 100 种实体、属性和关系,就需要 50 万标注数据。按照现在的标注速度,需要几十个人月的专家标注,标注好数据之后,还需要算法工程师训练和调优模型,成本就会非常高。


这还是建立在应用场景、数据想清楚的前提下,在实际落地中,应用场景和数据还会遇到很多问题。


爱分析:迁移学习对数据标注这个事情有哪些提升?


苏海波:举个例子,深度学习需要的标注量会特别大,例如做情感分析,需要好几万的标注数据才能达到 80%左右的效果;而用深度迁移学习,可能只需要 500 条数据就能达到同样的效果,这是 NLP 技术一个质的突破。


深度迁移学习的核心思想是结合一个通用学习任务,得到一个预训练模型,然后将这个预训练模型应用到各个实际要解决的问题,这样就能大大减少标注的数据样本数。这个技术最早应用在图像领域,去年在 NLP 领域有了大的突破。

05 认知智能的两大内核:语言 认知和数据认知

爱分析:百分点也在提认知智能,我们总觉得大数据和认知智能的差别不大,这本身就是一回事,还是存在一些差异?


苏海波:大数据和认知智能是有差别的,大数据更多指的是海量数据的采集、接入、存储、分析、查询等,尤其涉及到海量数据的数据处理,包括 Hadoop、Spark、Storm 等大数据组件的使用。当然大数据里面还包括关联分析、数据挖掘和机器学习,以及利用大数据去做预测。


认知智能的核心是两部分,第一是对语言的认知,涉及到如何进行语言的自然化理解,能够跟人类进行交互,例如智能问答、BI 决策的智能交互分析等。第二是要能够对数据进行认知和理解,能够从海量的数据当中抽取结构化的知识和知识之间的关系,并辅助人进行决策,需要用到自然语言处理和知识图谱等技术。


现在感知智能方面,无论图像识别还是语音识别,目前都已经算是做得比较好了。下一个黄金十年应该就是认知智能,有很多的问题需要解决,而且现在看到它离我们日常生活也越来越近了,比如智能交互,现在我们身边各种 APP、音箱的智能交互已经越来越普及了。


爱分析:认知智能在各个行业的渗透,它是必须依靠大数据渗透到一定程度之后,认知智能才能爆发吗?还是两者可以同步的进行?


苏海波:认知智能的渗透比大数据挑战会更大一些。因为大数据的应用场景是非常广的,哪怕做一个大数据平台、做个数仓都可以说是大数据。从 2018 年开始,很多的客户希望往人工智能上面走,其实认知智能就是一个非常重要的方向。


爱分析:原来大数据项目都是以项目交付作为结束,未来认知智能会不会在商业上产生一些新的模式?


苏海波:最开始是定制化的项目交互,也就是 1.0 状态。之后在项目中抽取出一些共性的需求,做成 SaaS 类的服务,这是 2.0。3.0 是我们开始跟客户联合运营一些系统,采用销售分成的模式,例如我们的某些大客户有很好的资源,比如人民出版社,我们和他们联合运营了一款党员小书包 APP。简单来说,就是在客户有资源的情况下,我们相当于客户的技术合伙人,联合来运营一个产品。


爱分析:百分点 2018 年在哪些行业落地进展更快一些?


苏海波:从发展速度来看,公检法发展速度应该是最快的,公安领域在 2018 年将大数据作为非常重要的战略方向,大数据的需求非常旺盛,发展很快。其它行业,包括零售快消、媒体出版、政务等领域也齐头并进,不断地有项目案例落地。在 2019 年,这几个行业也是我们重点发力的方向。


2020-03-08 16:442015

评论

发布
暂无评论
发现更多内容

三江学院计算机科学与工程学院举办“火焰杯”软件测试开发选拔赛颁奖仪式

测吧(北京)科技有限公司

软件测试 测试

腾讯产业生态规模大、增速快、质量高,2023年将加大生态开放力度

科技热闻

购物季订单多管理难?用WeLink轻松搞定

科技怪授

华为自研分布式时序数据库集群:初始GaussDB(for Influx)

清欢科技

架构实战营 1-1 架构概念随堂测验

西山薄凉

「架构实战营」

BSN开放联盟链“中移链”浏览器2.0正式发布!

BSN研习社

BSN 中移链

源码级解决方案一键部署,华为云Solution as Code正式上线

科技怪授

腾讯云曹磊:双碳、双循环政策驱动下,消费电子行业的新机遇

科技热闻

一文读懂|2021年数据库领域精彩回顾

YMatrix 超融合数据库

腾讯云升级发布两大区块链产品,助力产业区块链数字化生态建设

科技热闻

国产开源操作系统OpenCloudOS新进展:装机量超1000万节点,合作伙伴超500 家

科技热闻

三江学院计算机科学与工程学院举办“火焰杯”软件测试开发选拔赛颁奖仪式

霍格沃兹测试开发学社

华为云发布《基于MetaTown构建数字资产平台》

爱尚科技

架构实战营 1-4 架构设计三原则随堂测验

西山薄凉

Flink on Yarn三部曲之一:准备工作

程序员欣宸

大数据 flink hadoop YARN 12月月更

iOS 查找字符串出现的范围

刿刀

ios swift

架构实战营 1-3 面向复杂度架构设计随堂测验

西山薄凉

WeLink&SKG,让年轻人爱上养生

i生活i科技

架构实战营模块 7 作业

陌生流云

架构实战营

深入浅出Seata的AT模式

Java 架构

WeLink助力中建西南院成功举办数字赋能培训

i生活i科技

架构实战营 1-2 架构图随堂测验

西山薄凉

「架构实战营」

架构解析:Dubbo3 应用级服务发现如何应对双11百万集群实例

Apache Dubbo

Java 开源 微服务 dubbo

极客时间运维进阶训练营第四周作业

LiaoWD

pipeline SonarQube jenkins高级用法

基于云原生的火山引擎边缘云应用与实践

火山引擎边缘云

分布式 云原生 边缘计算 节点 火山引擎边缘计算

Zig语言初探

Yuet

嵌入式系统硬件概述

timerring

嵌入式系统 12月月更

使用 Databend 加速 Hive 查询

Databend

华为云发布《高可用网站架构云化解决方案》

爱尚科技

测试如何发展副业,提升斜杠收入

老张

码农副业 斜杠

一文了解 Go 方法

陈明勇

Go golang 方法

构建行业知识图谱切勿操之过急,这里有三大前提条件_文化 & 方法_百分点认知智能实验室_InfoQ精选文章