中国计算机界一年一度的顶级盛会 —— CNCC2021( 中国计算机大会)将于 12 月 16-18 日在深圳拉开帷幕。InfoQ 极客传媒已正式成为 CNCC2021 的战略合作媒体。作为合作的一部分,《InfoQ 大咖说》与 CCF 联合推出了高端访谈栏目《技术风云 | 对话 CNCC》。
《技术风云 | 对话 CNCC》高端访谈栏目将以直播对话的形式,从纵览计算机发展的视角出发,特邀来自 CNCC2021 的顶尖专家学者、科技企业的技术领袖,围绕 AI、数字化转型、计算+ 、云计算、开源、芯片等前沿技术展开广泛探讨,带来学术、技术、产业等全方位的深度解读,推动计算领域创新技术更广泛的传播、讨论和变革,帮助 IT 从业者开阔视野,紧跟时代。
人工智能的发展可分为感知智能、认知智能和行动智能三个阶段。当下行业正处于认知智能的起步阶段,而从感知智能到认知智能的过程中,知识图谱是关键技术之一。
10 月 27 日,InfoQ 和 CCF 联合推出的大咖说栏目《技术风云 | 对话 CNCC》第 5 期直播开播。本期大咖说,我们邀请到了中文开放知识图谱联盟 OpenKG 创始人、CCF 术语工委副主任,也是 CNCC 2021 的讲者——王昊奋老师 ,来跟我们聊聊知识图谱如何为应用场景提供技术赋能,以及如何赋能数字化转型。
以下内容节选自当天的分享,InfoQ 做了不改变原意的编辑:
InfoQ:首先请您跟大家做一下自我介绍,包括您的职业经历、您一直以来研究哪些领域等等。
王昊奋:我从事人工智能行业,尤其是自然语言处理和知识图谱相关的研究,此前在狗尾草科技和乐言两家创业公司担任过 CTO,构建了全球第一个虚拟偶像、以及应用面最广的电商智能客服系统,当中使用了大量的知识图谱的相关技术。
目前在同济大学担任教授职务,希望将知识图谱和数字化转型结合起来做一些赋能的工作,尤其是城市数字化转型和企业数字化转型,所以今天非常荣幸可以在这边跟大家做相关分享。
在中国计算机协会里我担任 CCF 上海执委,以及 CCF 术语工委副主任,术语工委这边主要是协助刘挺教授来开展术语的收集、翻译、释义和审定相关工作,也是知识图谱兴趣小组 SIGKG 主席。
InfoQ:我们今天的主题是知识图谱如何赋能数字化转型,首先想请王老师给我们介绍一下什么是知识图谱?知识图谱中的知识,从哪里来?
王昊奋:这是非常基本且重要的问题,知识图谱概念是 2012 年由谷歌率先提出。而在这之前,在上个世纪,像语义网络、语义万维网都可以认为是知识图谱的前身。知识图谱包含两个词——知识、图谱,可以理解为是用图结构的形式去关联各种各样的知识,相当于是对万物知识化以及互联。
图谱有结点和边,我们可以将各种对象、事件对应到结点,将属性、关系等等对应到边,这样就形成了诸如包括人物图谱,兴趣图谱,还有企业产业链图谱、医疗疾病和症状关联图谱等等,形成各种垂直领域和通用领域的知识图谱。既然知识图谱是由谷歌率先提出的,所以早期的应用主要集中在如搜索、推荐、问答等互联网 2C 应用中,之后才慢慢发展到渗透进各行各业当中,形成更加广阔的领域行业 2B 辅助决策类智能应用。
知识图谱的知识可以来源于各个方面,比如业务系统,也可以来自文本、图像、语音等各种各样的多模态的数据,甚至说可以来自知识众包,来自传感器,或者物联网所产生的各种数据。任何数据都可以去做相应的“知识化”,形成某种图结构,构建出我们想要的知识图谱,下游就包含我刚刚提到的各种应用。所以知识图谱是普适性非常强、并且在人工智能的发展过程中属于认知智能阶段的核心技术。
InfoQ:能否请您结合知识图谱的发展历程,说说现阶段知识图谱的发展情况如何?
王昊奋:知识图谱第一阶段,我们称之为叫专家系统,是伴随着第一次人工智能热潮而来的,有一位图灵奖获得者叫 Edward Feigenbaum,他曾经说知识是 AI 系统的力量(Knowledge is the power in AI system)。第二阶段经历了大规模知识的发布和知识之间的互联,形成了语义万维网;第三阶段就是现阶段,知识图谱和深度学习紧密结合,千万事物都可以进行“表示学习”,我们可以将一些符号系统、和本身所对应到的机器更擅长的一些神经系统结合起来,从而去创造出一些既可学习、又可解释、又可让人可以理解的新型的大规模知识图谱。现阶段的第三代知识图谱相当于在深度学习时代中发展起来的,是自动化程度更高、智能化程度更高、以及规模更大的知识工程。
InfoQ:关于今天这个主题,知识图谱怎么赋能数字化转型,对企业来说,之前也有传统 BI(商业智能)、知识库,为什么现在会越来越多的企业开始使用知识图谱呢?
王昊奋:传统的知识库就像前面讲到的,它是利用领域专家的知识而做的专家系统,主要问题在于规模比较小。大部分知识都是需要去做手动的加工和处理,这势必导致构建成本相对高、周期长,不利于大数据时代的新型应用的产生。我现在讲的知识图谱结合了自然语言处理、深度学习、信息检索,也包括数据库等各方面的技术,使得自动化程度更高,规模也更大,因此在降本增效方面做得比较好,既能保持原来知识库所具备的权威性和质量高的特点,同时可以部分解放专家,使得我们可以追求更大规模的知识库的生产,以及将数据背后的知识价值不断延伸,去赋能更多领域。
当然它和 BI 并不是相矛盾的,两者是相辅相成的,我们也可以基于知识图谱来做很多 BI 操作,但是传统 BI 更多的是一些统计和简单的数值分析。在知识图谱里,因为知识本身还具有一定的推理能力,也就相当于我可以从现有的知识去找到它所蕴含的知识,除了传统的描述性的统计之外,还可以得到更多的洞见,甚至对未来的规律做出分析和预判,这就相当于赋能了传统的 BI,让它变得更高级,比如说预测性 BI、交互式 BI、或者增强型 BI 这类新的技术领域。
InfoQ:降本增效应该是比较关键的作用,能否结合一些实践案例说说,您认为知识图谱是如何赋能企业数字化转型?
王昊奋:降本增效并不仅仅是说知识图谱,对于任何的 AI 技术,它都是一种降本增效的手段。知识图谱更多地充当“大脑”的角色,是在认知智能和决策智能当中起更大的作用,那么结合数字化转型来说,对于特定的一些领域,比如金融,特别是银行当中,它需要去做很多的风控和反洗钱检测工作,现在反洗钱越来越多,这并不是个性行为,更多的是团体行为,它的隐秘性比较强,而且需要去做实时性更强的判断,那么知识图谱就可以赋能我们去将各种各样的多源异构的信息去做相应的整合,避免形成信息孤岛,产生决策失误。或者可以说它是一个“漏检”过程,能够快速检测出原来传统技术所不能方便地检测出来的东西。
另外还有医疗方面,现在 AI 辅助制药非常火,这里面很重要的一点是能不能快速去阅读大量的医疗文件,或者专利,并且结合已经了解到的基因库、蛋白库和一些交互作用,快速对药物进行靶标识别、基因筛选,甚至是在医疗临床诊断过程当中的用药安全识别进行快速判断,来帮助加速药物研发的流程,减少医疗事故的风险。
当然同样的例子还有非常多,总体来说就是将知识图谱作为黏合剂,可以将各种多源异构的数据进行统一的表示,使得这些数据可以互联互通,并且不仅是在结构层面,而且可以在语义层面形成更好的互操作,基于这样的互操作形成知识图谱,这样我们就可以在这上面去做相应的分析、计算、推理、预测,从而帮助下游的一些决策性任务,提升决策的质量,这对于数字化转型是起到了赋能的作用。
InfoQ:您侧重聊到了金融跟医疗,目前是不是只有部分数字化水平比较高的行业,才可以落地知识图谱的应用场景?
王昊奋:我觉得知识图谱并不是一定要等数字化全部做完才能去做的事情。数字化转型本身是非常大的产业,我们可以按需针对某一个业务、某一个主题去做相应的数字化。有可能某个行业整体的数字化基础不是特别好,但是不妨在某些特定的细分领域/主题去开花结果。举个例子,比如说在智能制造,我们都知道制造业本身的信息化和数字化水平远低于互联网或者金融/医疗等行业,但是在智能制造领域,像复杂设备的检修,它的一些根因的识别、故障的推算,都是有知识图谱的身影。所以在数字化程度不一定很高的行业里,我们也可以对于其中一个非常细分的场景做切分,也可以使用知识图谱去做数字化的赋能,这里说的是产业数字化。
另一方面,数字化转型还包括数字产业化,比如“雪亮工程”有很多的摄像头,有很多传感器设备感知到信号,还有很多智能音箱或者别的语音接收器,那么这些硬件收集到的数据如何可以更好去赋能其它各行各业并在这个过程中不断提升。就像石油,原油的价值一定不如精炼后去形成衍生物的价值高。知识图谱正好起到了对数据本身的价值的提升的作用,并且是对一些碎片化的内容做聚合、包装。
所以从产业数字化转型来说,我们可以去从很小的场景切入,而对于数字产业化来说,知识图谱有更广阔的泛场景的应用需求,对于数据进行挖掘,从而体现出它背后的更多价值,这是它更大的用处。
InfoQ:实际应用过程中,知识图谱在落地中会出现很多挑战与困难,能否说说有哪些比较典型的挑战与困难?
王昊奋:知识图谱不是专门的学科,而是比较复杂的系统工程。我们都会去关心知识从哪里来,知识怎么去用这两个很核心的问题,那么对于如何应用,基本上我们会对它的生命周期做梳理,这里面就包括知识建模、知识抽取、知识融合、知识存储、知识计算、知识服务这样的几大模块,每一模块都有大量的挑战。
关于知识建模,在产业数字化的赋能过程当中,我们需要将行业所对应的各种数据做统一的表示和理解,并且在这个过程中要去抽象和建模,需要行业专家的经验和很多 knowhow,对于知识表示的语言和表达能力有更高要求。至于知识抽取,所有东西全是靠人工来去抽取不太现实,怎么去更好地进行自动化大规模抽取,这是它所面对的一个挑战。对于结构化数据,我们要去做数据的映射,对于半结构化数据,需要去设计相应的一些包装器,而对于一些非结构化数据,如果是文本,则需要做相应的自然语言的信息抽取,而对于图像,则得再结合机器视觉去做场景理解,包括对象识别以及他们之间的一些关联等等。在这个过程当中,我们既要保证它的自动化程度,又会受制于标注数据的稀疏性和本身的质量不佳等问题,这又反过来会对深度学习、或者其他相关学科里面的应用落地提出了很大的挑战。
另外,知识抽取完之后,需要对它进行融合,融合就涉及到如何对多源异构数据快速做高质量融合的问题。知识是不断动态变化的,我怎么去对它进行增量融合,甚至说跨模态的融合。还有多源的问题,现在跨境电商也很火,比如淘宝上面的一些商品的分类跟亚马逊上的怎么去做相应的对齐,这又涉及到多语言的理解问题。
当这些全部都做完之后,“幸福的烦恼”就来了。幸福的烦恼就是在于这么大规模的知识库,应该怎么样存储?存储并不仅仅是通过一个文件、或者说传统的磁盘就可以,需要考虑数据该怎么用?怎么能高效地做检索和过滤、以及分析,于是图数据库就诞生了。所以这不仅是涉及查询,还涉及比较复杂的图上面的计算、图上面的挖掘、图的一些推理,因此对存储和处理引擎提出了更高的要求。
接下来是如何把它对应到向量化的表示,以更利于机器的处理,甚至是更复杂的一些图神经网络,这里主要涉及数据的挑战,还有技术和算法上的挑战。更进一步,当我们在落地的时候,还会涉及到很多业务挑战,很多时候业务数据少只能做私有化部署,对数据、算法、技术、工程、工具等等的成熟度,以及知识图谱相关的不同人员的效率和成熟度,提出了很高的要求。
InfoQ:总结性地说,在您看来,知识图谱落地的关键是什么?
王昊奋:知识图谱的落地关键可以从 toC 和 toB 两个角度看。如果是 toC 的应用(常说的互联网应用),那么它对于知识本身的广度、知识的搜索推荐问答等等基础的应用服务的质量,以及数据的运营和知识图谱的工程化能力有比较高的要求,关键在于服务和服务化的能力。
而 toB 层面,目前是有行业的一些知识图谱的应用解决方案,但很多时候存在某一方数据不能露出的情况,它不像 toC 的一些应用有非常丰富的数据,它对于工具化的要求和平台化的要求也比较高。在这个过程中,如何对各行各业的领域知识、行业的算法、行业的模型和知识以及经验去做沉淀,去形成一个个类似于互联网 2C 应用的闭环,这是现在比较关键的方向。
InfoQ:目前已有应用的行业可以如何去拓展知识图谱的应用场景与应用领域?对此,您有什么样的看法/建议?
王昊奋:每个领域都可以去拓展。一方面,从知识产出到形成应用会涉及到传统行业,叫做知识管理。虽然知识管理更多地是面向咨询人员,但其实每个行业都需要知识管理。另一方面在于,如果说需要对一些碎片化、分布在不同的地方的数据进行统一的治理或者管理,这里面也有知识图谱的身影。即使是在大数据行业,比如说在数据湖、数据仓库、湖仓一体化等等,也可以看到知识图谱在底层应用的运用。特别是很多预测性或决策性的任务,需要有一定的可解释性,都是需要用到知识图谱去做进一步的赋能。当然这方面的赋能只能循序渐进,一般来说可以先去看它是不是在一些像搜索、推荐等方面有需求,推荐可以有各种类型的推荐,还有一些类似于像智能客服、投顾,或者聊天对话式的内容,是可以率先去落地的。
InfoQ:聊完知识图谱的背景知识和落地,最后我们想聊聊中文开放知识图谱联盟 OpenKG,该联盟创立的初衷是什么?
王昊奋:就像深度学习的成功取决于算法、算力和数据,首先这个联盟集合了互联网上的各种各样的大数据。第二,如今 GPU 的算力得到大量的释放,在这样的情况下,我们的算法也可以有很大的提升,那么这些算法怎么能让更多的人、而不是特指传统去学习 AI 的科班人员,让业务开发人员也可以很方便地使用。
我们看到,在这个过程当中,像 TensorFlow、PyTorch 等深度学习框架应运而生,而正是因为这些深度学习框架,以及很多开箱即用的算法,都发布在了像 GitHub 这样的开源社区当中,以及很多预训练模型等等,所有的这一切都使得我们使用 AI 的成本和壁垒变得越来越低、变得越来越小。所以我们觉得,知识图谱要去发光发热,不能让所有的这些经验和内容都只局限在某几个科班出身的人的脑子当中,进一步地,我们需要对这里面的已有的一些数据去做“知识化”,并且将知识化之后的结果进行公开发布,普及一些开源工具和最佳实践和案例。只有这样才可以打通产学研,社区才可以蓬勃发展。
InfoQ:从 2014 年创立到现在,OpenKG 的发展符合预期吗?为什么?
王昊奋:OpenKG 的发展基本上还是比较符合我们的预期。因为我们从一开始就构建了自己的门户,上面涵盖了大概超过 20 种行业的大规模的知识图谱。然后我们在百科、常识、以及多语言关联的知识图谱做了很多开源开放的工作,并且也被应用在各行业中,包括高校科研、公司里的商业应用都会以此为基础展开,去构建自己的知识图谱的应用。同时我们也建立了很好的回流机制,用之于民,用之于民。大家也非常积极地去将自己修改过的知识库开源出来,甚至在这个修改的过程中做了各种各样的知识处理工具,并纷纷开源出来,做了不少案例分享以及最佳实践的总结。
我觉得 OpenKG 社区是在不断持续扩展,其参与者包括高校和科研院所、国企事业单位、互联网公司、传统企业等等。它的结构是相对健全的,并且处于良性发展的阶段,我也希望通过 InfoQ 这个平台,呼吁更多的人参与进来,因为只有用的人更多,才能暴露出更多的问题,同时也可以发现出更多有趣的、有挑战的、值得去做的内容,使得社区的成长和产出,可以达到指数级的增长,这是我对于 OpenKG 的期望。我们现在也在思考,怎么能让 OpenKG 跟其他的开源社区/联盟可以更好地关联和对接,做一些资源共享和互补,一起把事情做得更好。
InfoQ:您将在 2021 中国计算机大会上带来题为《OpenKG:知识开放平台在数字化转型中的机遇和应用》的分享,能否提前剧透一下,您届时将带来哪些内容的分享?
王昊奋:总体来说,我会沿着数字化转型浪潮去做分享,除了传统意义上的互联网应用和企业应用,在城市数字化转型和企业数字化转型、特别是新兴的领域也会讨论,包括建筑规划和土木工程,以及在智能制造的一些领域,新能源汽车,还有艺术设计等等,聊聊知识图谱能给这些领域带来的价值,以及这个过程中知识开放平台的价值、带来的可能性以及面对的挑战等等。
如果大家还想了解关于知识图谱赋能数字化转型的更多信息,请关注将于 12 月 16-18 日在深圳举办的CNCC2021,届时王昊奋老师将在大会上做精彩的报告。
评论 1 条评论