写点什么

大模型如何重塑企业知识管理?丨对话 AI 原生《云智实验室》

  • 2024-07-18
    北京
  • 本文字数:4746 字

    阅读完需:约 16 分钟

大小:2.30M时长:13:23
大模型如何重塑企业知识管理?丨对话AI原生《云智实验室》

知识管理是企业持续发展和创新的核心动力之一,长期以来却面临着效率低下的挑战。大模型时代的到来,为企业知识管理带来了新的机遇,如何通过大模型重塑企业知识管理全流程进而提升效率?如何拓宽知识的边界,挖掘知识的内在价值?大模型重构的知识管理又能为企业带来哪些价值?带着这些问题,在对话 AI 原生《云智实验室》栏目中,南网科研院知识管理专家林正平、百度智能云知识管理产品线总经理宋勋超与 InfoQ 编辑展开了一次深度探讨。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    点击收看《大模型如何重塑企业知识管理?》完整版


    以下为本期栏目精华内容


    InfoQ:企业知识管理是什么?对于企业来说有何价值?


    宋勋超:知识管理自上世纪 60 年代在国外逐渐兴起,1998 年以后,国内的企业开始探索知识管理的应用。

    知识管理发展主要分为三个阶段:


    第一个阶段是基础数字化的阶段。在这个阶段的知识管理平台,更多的是将企业散落的各种数据进行归总和汇集,但没有对知识去进行深度的利用,初期的知识管理主要是文档系统。


    第二个阶段是知识的信息化阶段。在这个阶段,企业将收集的个人知识和系统知识进行粗粒度的加工和整理,进而形成了知识门户或者是企业搜索。


    第三个阶段是大模型时代的知识管理,在大模型的加持下,知识管理的全流程效率都有了显著的提升。大模型强大的理解能力,使得知识管理平台以往很难去解决的知识加工和应用问题都迎刃而解。


    在第三阶段,知识管理可以更加深入到业务,使得知识管理在企业内更加具象化为一个可以永远传承知识的老师傅,为企业员工提供持续的知识供给,带给企业的价值可以更好地去被衡量。


    InfoQ:甄知与传统知识管理平台有何区别?


    宋勋超:甄知是国内首个大模型全面重构的一站式知识管理平台,可以全面重塑知识管理流程。其实知识管理领域一直有四个问题是非常难解决的,也是制约着知识管理发展的瓶颈:


    • 知识源分散

    • 知识获取难度高

    • 知识更新慢

    • 基于知识的应用薄


    有了大模型,实际上知识管理进入了新的阶段。之前的这四个问题如果在小模型时代去逐一地去解决,需要耗费非常高的成本,每一个模型都需要去对它进行大量的数据标注和精调。而在现在的大模型时代,我们可以不用任何工程化的手段就能够解决上述问题,成本极低。


    另外,我认为大模型能给知识管理带来的最大的变化,其实就是 Agent 技术。一个智能体它要去执行复杂的任务,其不仅要理解任务本身,更多的是形成知识驱动的解决范式,所以我也认为知识管理是大模型成熟应用的第一站。


    InfoQ:南网科研院在知识管理上遇到了哪些难题?


    林正平:南网科研院过去标准知识管理主要还是针对文档级别,过去一线的生产人员只能通过纸质的标准或者在标准平台上通过标准名进行信息检索,怎么样去驱使所有人用统一的标准去完成相关工作,是我们在整个企业运作过程中急迫要去解决的一个问题。这是标准知识管理面临的最大的问题。


    InfoQ:甄知如何解决南网科研院在知识管理上的难题?


    宋勋超:甄知和南网科研院已经合作了数个年头了,我们最初要解决的问题就是知识的显性化问题,很多企业也会有类似的需求——企业里有很多经验,这些经验都存在于老专家的脑子里,你们能不能给我提供一个平台或系统,从而把老专家脑子里的知识“萃取”出来?


    这个愿景对应的需求就是“能够将各种规则,各种隐性的数据引入知识管理系统”。针对这样的原始的需求,甄知知识管理平台提供了多种形式的数据接入方式。比如 API 方式的接入,手动的上传以及推拉拽等等一系列的知识同步机制,企业能够将结构化、或者是大量存在的非结构化的数据,甚至是数据类的知识,快速地去接入到系统里。


    2024 年甄知还有一个比较重要的产品升级:平台对接了非常多的企业级的知识源,比如说 confluence、wiki、各类企业网盘,甚至包括飞书、钉钉文档、企业微信文档,这些在企业内广泛存在的企业级的知识源,在甄知的平台上能够去快速地、无缝地去集成和接入,极大程度地提升整个知识接入的效率。


    更为重要的是甄知平台提供 AI 驱动的协同编辑和智能化的写作工具组件,使得企业很多在日常工作里面能够去随写随记的这一部分知识,都能够实现即创作、即沉淀,效率提升极大,且管理成本较低。


    InfoQ:甄知怎么帮助企业构建知识体系?


    宋勋超:面向于大模型的应用,我们需要把原始知识、原始数据整理成大模型能够理解的形态。这也是知识管理传统的系统耗费人力最多的地方之一。甄知的知识管理平台提供三个比较核心的技术能力,第一是多模态解析的能力,第二是知识结构的解析能力,第三是知识要素的加工能力。


    多模态解析的能力是指现在越来越多的企业,它广泛的数据存在于非结构化的文档里面,这些非结构化的文档里包含各种复杂的表、图以及大段的文字。以南网科研院为例,几万篇的国标、行标、企标,都是以 PDF 文档的形式存在。甄知借助大模型的 OCR 视觉理解能力,能够非常便捷、高效、快速地把企业内存量的多模态文档解析成章、条、目、段落,甚至是图表,这对于后面的知识加工成功与否非常关键。


    另外,面向于企业级的搜索和 RAG,甄知提供了可配置化的段落切分的能力,可以去配置固定的长度。最为重要的是甄知能够用智能化的手段非常精确的识别语义化单元,从而使我们的 RAG 和搜索能够达到一个非常精准化的程度。借助大模型,刚刚所说的这一系列加工过程,都能以非常高效的方式,实现大规模的生产,企业只需要去配备一些必要的知识运营人员,对大模型生产的结果进行审核、校验和入库,相比于传统的方式,至少提升了 2-3 倍的工作效率。


    InfoQ:南网科研院是怎么搭建知识体系的?


    林正平:南网科研院其实非常关注科技创新这个领域。我们有海量的,像论文、标准、专利还有项目成果等等相关的一些知识数据,以往我们的项目数据怎么分到技术体系树里面去是一个非常大的难题。过去我们更多是根据一些规则,就是专家去梳理一些文本规则来对这些资源进行分类。整个效率相对较低,另外它的准确率也不够高,需要大量的人工去审核。


    现在有了大模型,还有相关的智能化技术加成后,在知识分类上我们会根据业务需求组建知识体系框架,通过模型来自动打标签,实现海量知识的快速分类,便于对这些知识进行分析还有查找,目前我们的效率提升还是比较明显。


    另外就是在知识关联关系的挖掘上,以往我们的知识都是单兵作战,像我们有一个论文,我只能看到这个论文它自身的一些内容,在知识关联上很少能够挖掘。像标准也是,标准之间它有引用关系,以往我只能看到某一个标准,但是我不知道这个标准跟它相关的一些作业指导书有哪些,跟它相关的技术规范书有哪些?在知识的利用上还不是非常的深入,对于整个知识的关联发现也非常难去完成。有了智能化技术的加成,平台可以更好地去挖掘知识之间的关联关系,最终来构建知识图谱,支撑标准文、论文相关知识的推理以及问答等应用,这些对我们的帮助都是非常的大。


    InfoQ:甄知通过大模型重构知识体系的技术突破点是什么?


    宋勋超:对于知识组织而言,我们的知识都来源于各个孤立的业务系统,它本身并不具备体系化和组织化。本质上来讲,知识组织和体系的建立,就是非常复杂的一个多维分类体系的建立。


    传统的知识管理时代基本上都是靠人,基于大模型非常强大的语义理解能力,我们能够通过简单 prompt,可以做到 Zero-shot 和 Few-shot 这样的分类,可以让运营人员很少参与到这个过程,就能够去实现复杂分类体系的建设。过去知识图谱的技术,它从关系的挖掘、消歧再到鉴编,这一系列的环节依赖于非常多的小模型。现在有了大模型,实际上在一些应用场景里面已经验证基本上不太需要专业的数据标注,基于大模型本身的理解能力,结合知识图谱平台构建的机制,就能够在初始的准确率达到 80%以上。


    在大模型加持下,甄知在知识组织与知识关联方面展现出强大能力。目前,我们在应用层面已成功实现了基于知识关联的门户构建,以及个性化推荐等一系列功能,真正做到了“千人千面”。事实上,这些能力的实现都得益于大模型的引入,它使我们能够以更低的成本,对企业知识进行系统化的组织和管理。


    InfoQ:甄知如何提升南网科研院的知识生产效率?


    林正平:在有大模型之前,我们跟百度合作开展标准问答相关的一些研究,以往我们是采用知识图谱的方式,我还记得是在两三年前,我们组织了大量的专家对我们标准的指标体系进行了深入的梳理,总共是梳理了十几级的体系,最终通过知识抽取、消歧融合等等相关的一系列的工作,才构建了我们试点设备的标准知识图谱,最终才能支持标准的知识问答。


    那有了大模型之后,现在其实我们需要专家参与的工作量已经大大的减少,目前基本上我们只需要给一些简单的问答,通过大模型去训练,就可以完成问答模型的构建以及问答应用的开发。这对我们知识管理人员来说是一个极大的效率提升,大大的解放了我们的生产力。我们现在构建了标准的问答,还有语义检索相关的服务工具,对标准知识的查阅效率已经提升 50%以上。


    目前,大模型还能辅助员工去编写标准相关的大纲、正文并可以撰写科研机构的科技报告的综述、背景等等的相关的一些内容,我们的编写效率也是提升了两倍以上,对企业的知识生产运行效率来说提升还是非常明显的。


    InfoQ:甄知如何帮助企业用好知识?


    宋勋超:知识要能够驱动创新,它必然是要和场景结合的。刚刚我们说知识管理在南方电网就好像一个老专家。但是这个老专家他其实应该是有角色的,面向于企业的高层管理人员,他可能更加关注企业的宏观经营数据,面向于企业的中层管理人员,他可能更需要去了解项目的进度;面向于技术人员,他可能更关心的是技术方案。企业里面的每一个关键角色对于知识的诉求都是不一样的。所以我们认为如果要在一个企业内广泛地实现知识的创新,就必须要将知识发散,也就是要把知识应用到业务系统里面,形成真正的业务和场景化的知识助理。


    甄知实际上为企业提供了三方面的能力,以助力其更好地利用知识。首先是集中化的 RAG 能力,甄知打造了一个企业级 RAG 平台,确保企业中的每位员工在知识管理系统中提问时,都能真正获得有价值的答案。


    其次,甄知的推荐系统能够通过分析企业内部多元异构的员工画像,实现千人千面的个性化推荐,以及面向业务场景的即时推荐。甄知的知识管理平台已经不仅仅是一个知识门户或知识检索系统,它已经升级为一个企业知识化 Agent 构建的平台。在这个平台上,我们基于构建的知识体系,能够打造出知识化的差旅助理、报销助理、销售助理,甚至 HR 助理等一系列由知识驱动的 Agent 助理。我认为,只有当搜索、推荐和 Agent 服务这三个层面在同一个平台上实现出色的平台化整合时,我们企业内部的应用场景才会变得非常多元化,企业的创新源泉才会源源不断。


    最后,甄知覆盖了企业的知识生产、加工及应用全流程,最终能够将企业员工、知识应用与知识生产形成一个闭环与反馈机制。因此,在使用过程中,我们不断收集企业对于知识管理产品应用效果的反馈,这使我们能够不断提升知识生产与加工的效率。


    InfoQ:南网科研院如何用好知识,赋能每一位员工?


    林正平:南网科研院一直在推进从人找知识升级为知识找人。南方电网整个企业岗位非常多,对效率的要求以及安全的要求也非常的高,我们开展知识管理的理念主要是从用户、场景和知识三维一体的角度来进行开展,比如说我们的科研人员关注怎样快速去获取相关领域的高质量的报告、核心的论文、最新的研究成果以及历史相关的项目经验等信息。而我们的一线生产人员则关更加关注缺陷处理的方法以及作业的规范,每个岗位对于知识的需求都有存在一定的差异。


    以往,我们主要通过检索的方式来获取知识。然而,在人工智能时代,我们更需要从用户的画像和使用场景出发,为用户推荐有针对性、高质量的知识,以提升知识的获取效率。通过知识管理,我们希望总结并沉淀最佳实践,同时做好经验的传承。我们的知识管理平台的使命就是支撑知识的汇聚、存储和利用,甚至将知识直接嵌入到业务场景中去,无需人工干预,从而更好地支撑企业的创新和高质量发展。


    2024-07-18 09:398152

    评论

    发布
    暂无评论
    发现更多内容

    IO和NIO的对比篇

    Java架构师迁哥

    JavaScript01 - 基础

    Mr.Cactus

    JavaScript

    JavaScript04 - JavaScript语法

    Mr.Cactus

    JavaScript

    超越身边80%的人,其实没有你想象的那么难

    架构精进之路

    认知提升 成长笔记 七日更 28天写作

    APICloud AVM多端开发 |《生鲜电商app开发》项目源码教程

    YonBuilder低代码开发平台

    大前端 移动开发 APP开发 APICloud

    技术创新是PC市场发展基石,英特尔占据明显领先优势

    E科讯

    9. 细节见真章,Formatter注册中心的设计很讨巧

    YourBatman

    Converter ConversionService Formatter

    我们为什么打比方

    石云升

    28天写作 确认偏误 打比方

    限时开放!阿里P8大师终于把这份微服务架构与实践第2版PDF分享出来了

    Java 编程 程序员 微服务 架构师

    电商网站商品管理(二)多种搜索方式

    escray

    elasticsearch elastic 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

    一文带你学会AQS和并发工具类的关系

    伯阳

    AQS java 并发 ReentrantLock 多线程高并发 lock锁

    也谈Python编码格式

    ITCamel

    Python 编码格式

    JavaScript03 - window对象的方法

    Mr.Cactus

    JavaScript

    2021字节、华为、滴滴Java内部面试题(含答案),新鲜出炉!

    比伯

    Java 编程 架构 面试 程序人生

    【得物技术】代码覆盖率原理与得物app实践

    得物技术

    测试 原理 代码 得物技术 覆盖率

    详解HDFS3.x新特性-纠删码

    五分钟学大数据

    hadoop hdfs

    [5/28]产品运维保障体系的质量实践

    L3C老司机

    区块链2021狂想曲:迎接以技术为名的春天

    脑极体

    Python列表对象入门

    赵开忠

    28天写作

    Java并发编程实战(4)- 死锁

    技术修行者

    Java 并发编程 多线程 死锁

    JavaScript02 - js的引入方式

    Mr.Cactus

    JavaScript

    使用 kubectl-rabbitmq 部署和运维 K8S 上的 RabbitMQ 集群

    郭旭东

    RabbitMQ kubectl kubectl plugin

    在GitHub中向开源项目提交PR的过程

    worry

    GitHub pull request

    为什么印度不会成为世界工厂?

    JiangX

    印度 28天写作 世界工厂

    自动驾驶分级,小白能理解的那种(28天写作 Day8/28)

    mtfelix

    自动驾驶 28天写作

    一文带你学会AQS和并发工具类的关系

    比伯

    Java 编程 架构 面试 计算机

    JavaScript05 - JavaScript数据类型

    Mr.Cactus

    JavaScript

    使用nodejs和express搭建http web服务

    程序那些事

    HTTP nodejs 异步IO 程序那些事 web服务

    案例研究之聊聊 QLExpress 源码 (七)

    小诚信驿站

    聊聊架构 规则引擎 28天写作 QLExpress源码 聊聊源码

    Spring Boot 集成Thymeleaf模板引擎

    武哥聊编程

    Java springboot SpringBoot 2 thymeleaf 28天写作

    保姆级 tomcat 快速入门

    田维常

    tomcat源码解读

    大模型如何重塑企业知识管理?丨对话AI原生《云智实验室》_百度_百度智能云_InfoQ精选文章