写点什么

对话式 AI 系列:领域知识中台建设方法论与实践

作者:张杰博士

  • 2022-12-02
    北京
  • 本文字数:4404 字

    阅读完需:约 14 分钟

对话式AI系列:领域知识中台建设方法论与实践

知识成为企业核心资产和创新驱动力的时代已悄然来临,如何高效管理和充分运用知识资产成为企业面临的重要课题。作为智能交互系统的主要子系统,领域知识中台成为解决这一难题的关键所在。本文作者系中关村科金技术副总裁张杰博士,分享了中关村科金领域知识中台建设方法论与实践经验。


依托于对话式AI技术智能对话系统,相对于传统的营销服系统(如呼叫中心、客服系统)而言,不仅仅是一款连接用户的沟通系统,更是一款拥有决策能力的、以自然语言进行人机对话交互的系统,具备实时交互能力、客户洞察能力、业务决策能力、最佳实践总结能力。完整的智能对话系统包含三个主要的子系统:客户洞察系统、领域知识中台和对话引擎。其中,领域知识中台主要负责对企业内的领域知识做全生命周期管理,通过人机交互的方式将企业的核心生产要素、核心价值活动做统一化、标准化处理,帮助企业解决知识难以集中管理、难分享、难传承的问题。领域知识中台可以同时支撑对内的知识检索、员工培训以及对外的精准营销、客户服务等。

领域知识中台建设初衷:更加高效的留存、挖掘、管理、传承知识资产


在经历了信息化、网络化之后,越来越多的企业开始意识到,很多业务场景下的智能化应用都依赖于领域知识库的建设,智能程度的高低往往取决于自身拥有的知识资产的多少,这在知识复杂度高的行业里尤为明显。知识成为企业核心资产和创新驱动力的时代已悄然来临,越来越多的管理者开始重视企业内部统一的知识中台建设。


然而,在现阶段很多企业仍然通过员工培训、文档管理和数据管理来间接地管理和传播知识。员工培训的方式效率低下、成本过高;文档的方式粒度大,难以定位到知识片段;数据的方式粒度过细,对业务人员不够友好。因此,多数企业会面临以下几项问题:


  • 知识难留存: 现有的 IT 系统对知识的保留比较分散,并且非强制化和制度化。同时,大量的知识和经验都是非结构化的,很多 IT 系统也不支持对非结构化数据进行留存。

  • 知识难挖掘: 很难有效实现隐性知识资产显性化,企业在内外部信息环境变化快的状况下,即便掌握了数据,仍难及时做出响应或决策。

  • 知识难管理: 企业管理者难以把知识当作自身的资源和所有物去管理,难以对知识资产的价值做评估。在员工培训、营销、客服等场景下,知识维护的入口和管理界面分散在不同系统里,有时甚至同一个场景(如客服)下的不同渠道(如官网、小程序、呼叫中心)都没有统一管理。

  • 知识难传承: 骨干员工离职会影响企业的总体价值,老员工的经验无法沉淀,新人培养周期长。

领域知识中台建设方法论:两类用户、三类知识和六步建设法


为了解决上述问题,尤其是为了在营销服等系统中提升用户对话过程中的准确度,中关村科金总结过往在金融、政务、医疗等行业的实践经验,提出了一套构建领域知识中台的方法论,其核心内容可总结为:两类用户、三类知识和六步建设法。


两类用户包括知识官和知识工程师。知识官往往是企业内的高级专家,负责定义全局概念体系和管理知识。知识工程师往往是业务一线的基层管理者,负责贡献单条知识。


三类知识包括事实知识、原理知识和技能知识。以往的研究主要集中在事实知识上,原理知识多是按照技术路线区分,技能知识多是从管理学视角出发,科技公司极少能够给出 IT 方面的实现方案。三类知识与两类用户的关系如图 1 所示。



图 1 两类用户与三类知识的关系


六步建设法按照处理流程串行实施并形成闭环,完整地实现了从各类包含显性知识和隐性知识的数据源中抽取出陈述性知识和程序性知识并做形式化表示,然后以多种方式提供知识服务,最后促进已有知识的迭代和新知识的产生,如图 2 所示。



图 2 六步建设法


六步建设法具体包括以下步骤:


(1) 知识建模: 为了有效组织领域内业务活动中的几类关键数据,需要建立起知识的模型,定义出两个概念体系。一个是类别体系,包含领域内的类别、类别所包含的属性及其约束、类别间的关系类型;另一个是任务体系,包含领域中要面对的场景、场景下的细分任务、处理任务所需考虑的判断条件和工作流程等。有些领域在国家主管部委或行业联盟组织的推动下建立了相应的国标、行标,便于成员间的数据共享和流程标准化。


(2) 知识抽取: 知识抽取的目的是为了从数据源中抽取出知识片段,理解其语义后再做有序的组织和存储。涉及的知识通常是明确定义的、事实性的信息,这些信息来自不同的数据源、具有不同的结构。对不同数据源进行知识抽取的方法各有不同:从结构化数据中获取知识的操作常被称为映射(Mapping),需要编写映射脚本,其难点在于复杂的关系表的处理,包括嵌套表、多列、外键关联等;从半结构化和非结构化数据中获取知识的操作单元常被称为包装器(Wrapper),其难点在于包装器的生成、更新和维护。从非结构化文本中抽取知识时就是广义上说的抽取器(Extractor),其中三个最重要的子任务是:实体识别、关系抽取和事件抽取。


(3) 知识管理: 广义的知识管理被定义为“对知识、知识创造过程和知识的应用进行规划与管理的活动”。此处狭义的知识管理作为知识中台的一项系统功能是指:通过提供用户交互接口对事实知识库、原理知识列表、技能知识库中的知识条目做体系化组织,如增删改查、推荐、问答、订阅分享等操作,并最终存储于数据库中。


(4) 知识计算: 三类知识除了供人类用户使用,还应该被计算机无歧义的调用执行,为上层的应用系统提供 API 接口调用。由于三类知识经过体系化的整理,相当于人工的建立起更多的结构关联,拉近了相似知识片段间的语义距离,从而使其超越了字符串匹配式的语义计算方法,作为一项基础服务进一步提升上层应用系统的性能。


(5) 知识应用: 知识在真实条件下经过有效性和稳定性验证后,可在组织内部进一步推广应用。应用层常见的使用方式有两种,一种是较为通用的技术型应用,如可视化洞察、信息检索、推荐系统、问答系统等;另一种是具有行业特色的解决方案型应用,如金融反欺诈、快消品营销、工业维保等。无论以何种形式服务于用户或应用层系统,均需收集实际的应用反馈结果,以用于上述步骤的更新优化,从而形成闭环。


(6) 知识演化: 知识的有效应用并不是终点,知识中台带来的一项额外的增值是促进知识的动态演化,形成良性循环。随着内外部新知识片段不断加入到统一的知识体系中来,系统及时发现已有知识之间相似性、主动的推送给最有可能与之产生交互的人,从而对已有知识进行更新、促进新知识的应用和启发式创新。

中关村科金知识中台技术方案:实现数据全生命周期管理


为了实现从收集原始数据到产生应用决策的全生命周期的各个步骤,作为领先的对话式 AI 技术解决方案提供商,中关村科金总结了在银行、信托、证券、公安、社保、制造、医疗等 10 多个行业 500 多客户的项目经验,形成了一套知识中台的技术实现方案,该方案包括六大子系统,技术架构如图 3 所示。



图 3 技术架构图


  • 数据接入子系统:用于将分散于各个数据源中的数据统一进行采集、解析、去重和变换,并对这些任务做调度、优化与监控。

  • 知识抽取子系统:用于通过一系列技术方法从数据接入子系统所提供的结构化数据和非结构化数据中抽取出实体、关系、属性等知识片段。

  • 人机交互子系统:用于为知识工程师和知识官提供可视化的多轮交互界面,不断新增、修改和更新三类知识。

  • 知识管理子系统:用于对已有的知识做底层存储,并保证知识表示规范的兼容性、一致性,明确不同知识子类型的形式化表示方法、相关约束、子类型间的关系等,常用的知识子类别包括词典、类别、属性、实例、指标、规则、模型、工作流等。

  • 知识计算子系统:一方面用于自动化的执行已有的各类原理知识和技能知识;另一方面基于演绎、规则、模型,融合逻辑学和图论算法对已有知识做进一步的融合整理后进而获取新知识。

  • 知识应用子系统:用于提高资源优化配置效率,对接并帮助企业内的办公系统、生产系统、协作系统等,以实现科学决策、精准决策、高效决策。较为普遍的应用需求包括可视化、检索、推荐、问答,行业特性相关的应用多为利用图模式匹配算法做团伙发现、关联推荐、关系推理等。


在没有知识中台的情况下,企业仍然可以管理知识、利用数据解决业务问题,就像在没有数据仓库的情况下,企业也能做数据管理一样。但有了知识中台之后,可以让知识体系更清晰,知识复用更高效。中关村科金知识中台技术解决方案成功克服了以下几项关键技术挑战,并为企业客户带来相应的增值:

  • 通过知识表示技术,使知识更加可解释,使其同时表示为人类语言和机器语言,既具有一定的业务可解释性,便于业务人员理解和传播,又可以无歧义地在计算机上执行,便于自动化地做知识关联和输出预测建议。

  • 通过知识抽取技术,建立企业内部全局统一视图,为企业内不同职能部门提供全局视角,使各自的语言体系得以对齐,提升跨部门的协作效率,便于成果整合和复用。

  • 通过知识增强技术,将节点的网络结构信息、上下位等关系信息、节点本身的属性信息等融入到节点的表示方法里,提升下游 AI 任务(如检索、推荐、问答、规划、预测等)的准确度。

  • 通过人机交互技术,促进知识创新,让机器及时发现相似性知识,并主动推送给相关人员,以人在回路(Human-in-the-loop)的方式产生新类比、新启发,促进新一轮的知识创造。

总结展望:知识中台是企业面对未来市场竞争的战略布局


随着人工智能、大数据技术的普及,很多行业感受到来自技术的倒逼压力,数字化转型已然成为不可逆转的发展趋势。数字化转型的首要步骤是数据在线,随后是智能化应用。对话式 AI 是营、销、服等多个场景中均需应用的技术,其背后的支撑是客户洞察和领域知识。


领域知识中台的建设不单是为了让各种对话场景更加智能,还可以支持企业内信息检索、员工培训、产品研发等场景,是知识密集型企业在数字化转型之路上必经的一站。


现阶段知识中台的建设仍面临很多技术挑战,如:

  • 构建成本问题:对于结构化数据需要复杂的数据治理工作,对于非结构数据需要大量的标注工作。

  • 推理准确度问题:知识计算为搜索、推荐等上游任务的准确度带来提升,但其独特的应用价值在于具有可解释性的推理,需要在领域知识不完备且数据总量大的情况下进行快速准确的推理。

  • 形式化表示问题:一切知识应用问题归根结底都在于知识表示,已有技术成果多集中在事实知识上,对于原理知识和技能知识的研究仍缺乏深入的数学和认知理论基础,现有的一些实践技术路线难以统一。

  • 多模态问题:随着5G物联网和感知技术的普及,企业非结构化数据的占比会越来越高,从语音、图像、视频的多模态数据中联合抽取知识的需求会越来越多,通过终端设备以多模态交互、人机协同的方式辅助实时决策的需求对技术和产品设计而言将是双重挑战。


放眼未来,各类知识密集型行业均需建立自己的行业大脑,行业大脑将会成为企业在市场竞争中的战略控制点,由企业自身运营维护,知识作为企业资产不断地沉淀和更新。知识中台将会成为企业数字化转型中打通底层数据和上层应用的关键组件,帮助企业解决知识难留存、难挖掘、难管理、难传承的问题,为企业在新经济环境下的市场竞争做战略布局。

2022-12-02 14:114414

评论

发布
暂无评论
发现更多内容

AIGC背后的技术分析 | 机器学习背后的微分入门

TiAmo

机器学习 AIGC

点云标注简介及其应用

来自四九城儿

CMake vs Makefile: 如何选择适合你的项目构建工具

小万哥

Linux 程序员 C/C++ 后端开发 cmake

改变开发的未来 | 探索无服务器与人工智能的协同效应

亚马逊云科技 (Amazon Web Services)

Serverless

MySQL 正确使用带有横线“-”SQL语句

Andy

Auto-GPT 迈向智能体的第一步——从信息增强和上下文理解开始

Zilliz

Milvus 向量数据库 autogpt gptcache zillizcloud

PoseiSwap  参赛,参与斯坦福、Nautilus Chain等联合主办的 Hackathon 活动

股市老人

关于斐波那契数列的笔记

贝湖光

神册!出自阿里P8的深入理解Java虚拟机最新版,让我涨薪60%

Java你猿哥

Java JVM 虚拟机 并发 代码优化

云服务器虚拟化超分与虚机性能关系分析

天翼云开发者社区

云服务器 虚拟化技术

Zebec生态进展迅速,频被BitFlow、Matryx DAO等蹭热度碰瓷

鳄鱼视界

数字化转型应该如何去做?(敏捷思维篇)

数字随行

数字化转型

Django笔记三十七之多数据库操作(补充版)

Hunter熊

Python django 多数据库

世界顶级级架构师编写2580页DDD领域驱动设计笔记,属实有牌面

Java你猿哥

Java 领域驱动设计 DDD crud 领域驱动

九章云极DataCanvas公司诚邀您共享AI基础软件前沿技术盛宴

九章云极DataCanvas

牧云 • 主机管理助手|正式开放应用市场,梦幻联动雷池WAF等多款开源软件

百川云开发者

云计算 防火墙 云主机 waf 主机管理

极光笔记 | EngageLab Push的多时区解决方案

极光JIGUANG

运营 消息推送 笔记分享 海外

PoseiSwap 参赛,参与斯坦福、Nautilus等联合主办的 Hackathon 活动

西柚子

一文看懂GPT风口,都有哪些创业机会?

引迈信息

人工智能 低代码 ChatGPT JNPF gtp

ESG成全球风潮,联想造了一个可持续的“进托邦”

脑极体

数字化进程

PoseiSwap 参赛,参与斯坦福、Nautilus等联合主办的 Hackathon 活动

BlockChain先知

Go 语言 map 是并发安全的吗?

AlwaysBeta

Go 面试 map

安全可信 | 增强级认定!天翼云政务云通过云计算服务安全评估

天翼云开发者社区

云服务 服务器安全

聊聊技术变现这件事

老张

斜杠青年 技术变现 技术咨询

多模块更新,助力模型训练及应用|ModelWhale 版本更新

ModelWhale

人工智能 云计算 数据标注 在线编程 模型服务

瓴羊Quick BI连续四年入选Gartner魔力象限ABI报告

流量猫猫头

2023-05-26:golang关于垃圾回收和析构函数的选择题,多数人会选错。

福大大架构师每日一题

golang 福大大

Vue3 修改项目名称及相关信息

Andy

C语言编程—作用域规则

梦笔生花

设计模式之订阅发布模式

越长大越悲伤

设计模式 发布订阅模式 spring boot3 订阅发布

对话式AI系列:领域知识中台建设方法论与实践_AI&大模型_InfoQ精选文章