InfoQ 数字化经纬获悉,中国广核集团福建宁德核电有限公司(以下简称“宁德核电”)日前发布了自主训练的大模型「锦书」,这是专为核工业领域打造的大语言模型,其参数规模达到 720 亿。
据了解,「锦书」在内部被称为“全民 GPT”项目,自 2023 年 5 月发起,旨在探索利用 AI 大模型解决核电行业面临的各种挑战,如知识管理不足、低脑力劳动过多、安全分析能力有待增强等。
「锦书」主要训练两种参数规格的模型,分别是锦书 -34B-Chat 和锦书 -72b-Chat。这也是目前在全球范围内参数量最大的核工业预训练大语言模型。此外,「锦书」拥有中国最大的核工业大模型语料库,训练语料超过 20 亿 token,涵盖了核运行、核物理、核燃料、水化学十余类通用核工业语料以及规程、系统设计书、经验反馈单等十余种工作文件语料。
此外,宁德核电团队首次开发适用于核工业的专属 Nuclear-embedding-v1-base-cn 词向量模型和 Nuclear-reranker-v1-base-cn 模型,在由 50 万条向量数据构建的 nuclear benchmark 数据集上展示了卓越的性能,top1 召回率超过 88%,top2 召回率超 91%,top5 召回率超过 95%。
基于「锦书」核工业大语言模型,宁德核电开发出国内首个核工业大语言模型应用平台「云中锦书」,该平台部署了基于系统化培训理念的智能培训系统、个人岗位晋升系统、PPT 生成等多个应用,实现企业降本提质增效的目的。
核工业首个企业级大规模智能知识管理系统,总数据量超过 62 万条,支持个人知识库的构建和使用。
相对于传统的数字员工,核工业大模型的介入可以实现海量知识的整合,打破了各工种之间的数据孤岛,真正意义上实现“技术平权”,即现场工程师可以通过知识库之间的排列组合构建数字工程师,一人即 N 人,比如在专利管理方面,工程师可以通过只勾选专利及法律模块,便可迅速进行专利审查工作并给出风险分析。
核工业首个多模态 AI 讲师书锦,通过文字、图像、语音的多模态交互,实现了 AIGC 技术赋能 SAT(系统化培训方法)应用的首次尝试, 7×24 小时为核工业一线工程师答疑解惑,进行配套的核工业课程讲解,让培训成为一场按图索骥的旅行。未来,“课程”的概念将不复存在,这是数字化基建下培训新范式的探索,将为核工业培训和教育开辟新的途径。
开发经验反馈数字工程师,利用大语言模型的理解能力,自动筛选有价值的偏差单,准确率达到 98% 以上,原本需要 5 个人一天的工作内容,现在只需要一个人 3 分钟即可完成,每年节省人力成本超过 200 万元,将工程师从繁杂、低脑力劳动中解放出来。
除了上述功能外,还支持文生图、文生 PPT 等创新功能,这在提升工作效率、促进知识分享方面展现巨大潜力。
宁德核电人工智能实验室负责人王澍在接受 InfoQ 采访时表示,「锦书」既是人工智能时代的蓝图,也是献给核电的一封情书。大模型和生成式 AI 能力融入核行业的意义在于实现人员降本增效的同时,挖掘新的业务价值,有效地解决了在“双碳”背景之下,核电行业快速推进带来的复合突增和人员短缺问题,同时推动了传统行业数智化转型的整体进程。
近年来,宁德核电一直致力于推进数字化转型,积极探索 AI 在核电安全、运维、培训等领域的应用。自 2022 年底,公司便开始投用 AI 智能读表设备,显著提高了数据采集的准确性和效率。此外,宁德核电还实施了工业 AI+AR 智能解决方案,通过 AR 技术提现场操作的安全性和便捷性。随着「锦书」大语言模型在核工业领域的深入应用,其经验将为 AI 技术在其他工业领域的应用提供借鉴意义。
以下是 InfoQ 数字化经纬与宁德核电人工智能实验室负责人王澍的对话:
InfoQ:「锦书」的发起初衷是什么?这个项目对于核电领域的意义和影响会是什么?
王澍:2023 年初,GPT 横空出世,并以其优秀的对话能力、长文本生成能力惊艳了全球,带来了一个全新的 AI 风口。AI 的能力可以极大程度上提升人的劳动效率、降低劳动成本,上一个类似的生产力工具是掀起第一次工业革命的蒸汽机,所以我们认为该项技术的革新可能标致着第四次工业革命即将拉开序幕。
目前 AI 的能力以及逐步融入、下沉到各个垂直领域,“AI+ 媒体”、“AI+ 医疗”、“AI+ 金融”、“AI+ 政务”等跨界创新层出不穷。在此背景之下,我们也在思考“AI+ 核工业”会碰撞出什么样的火花?为此,我们重新梳理了核电行业的若干痛点,例如:知识需要被更好的管理、低脑力劳动需要被取代、安全分析需要被赋能......在分析的过程中,我们发现核电行业中的很多工作都值得用 AI 重新做一遍。
例如,将运维领域的数据投入到国内开源模型中进行多轮训练,可以得到一个相关的 AI 小模型,这个小模型以“copilot”的形态存在,我们称之为 AI 运维助理。在过去,工业现场需要 3-4 人才能完成的工作,在未来,有可能只需要一个人 + 一个“AI copilot“。AI 能力融入核电行业的意义在于实现了人员的降本增效的同时,挖掘新的业务价值,有效地解决了在“双碳”背景之下,核电行业快速推进带来的复合突增和人员短缺问题,同时推动了传统行业数智化转型的整体进程。
InfoQ:在核电领域的知识问答系统开发中,有面临哪些特别的挑战吗?
王澍:主要面临的挑战包括:
①专业术语的理解难题,即所谓的“核电行业黑话”。这包括了对系统三字经、设备九字码、国行标、现场特有名词等专有术语的识别和理解,由于预训练模型在词库的建立阶段并没有考虑核电高频词汇,而且通用模型训练数据集几乎不包含核电相关的内容,这对于模型来说是不小的考验。
②核电领域中涉及的文件类型极为丰富,包括通知、教材、图纸、报表、合同、规章等多种形式,因此,知识问答系统需要具备处理和分析各类文件的能力。
③由于核电领域对信息安全的要求极高,我们在开发过程中必须确保所有数据的安全性,采取严格的数据保护措施以避免任何可能的信息泄露风险。这一点至关重要。
InfoQ:项目团队是如何解决多轮对话能力弱、专业编码理解不足等问题的?
王澍:
提升 LLM 本身多轮对话能力:
1. 使用大量的多轮对话数据进行训练,帮助模型学会如何在多轮对话场景中维持相关性和连贯性。
2. 利用从用户那里收集的反馈信息,不断地评估和优化 AI 的对话能力。
提升 AI 平台系统对多轮的应对能力:
1. 使用 agent 自主检索技术,实现适配核电系统的高效智能 RAG 系统
2. 统一设计整个对话系统(包括自然语言理解、记忆管理、检索、生成等),各个模块相互配合,这样有助于 AI 平台处理复杂的多轮对话
压缩历史对话信息: 多轮对话积累下来的{D,Q,A},过长的 token 对 LLM 是个很大的挑战,所以我们使用:
1. 使用 200k 长窗口的 LLM;
2. 使用 memory 压缩对话,有效存储和检索对话中的信息;
3. 在特定任务上使用对话状态跟踪:通过记录用户在整个对话中的意图和要求的技术,增强系统对步骤之间交互的理解。
InfoQ:在降低幻觉和提升深层核电问题回答能力方面,团队有哪些创新的方法或技术?
王澍:首先是数据清洗,我们精心筛选并优化输入数据,确保训练集的质量。这个步骤对于减少模型输出幻觉性错误至关重要。接着,我们运用了精心设计的 RAG 的技术,在生成答案前先从大规模的知识源中检索相关信息,从而提供更为准确和具体的回答。
同时,我们实行领域特定的微调。尽管我们的起点是通用性模型,但宁德核电专注于使用核电行业专门的数据集,对模型进行进一步微调。这种方法大幅提升了模型在理解和解答核电行业深层问题方面的能力。
此外,我们也实行人工审核和反馈机制。专业人员会对问答系统的输出结果进行评估,并根据其准确性提供反馈,以助于系统不断学习与改进。
InfoQ:目前项目进展到哪个阶段了?已经取得了哪些成果?
王澍:我们已经初步完成了核工业垂直领域 LLM 的研发,可以初步实现核工业领域通用问题的问答。目前正在进一步清洗数据,准备更大规模的底层模型预训练重构,以扩展模型能力边界。同时也在基于特定任务开发 AI 插件(AI copilot),我们正在开发的包括:经验反馈筛选 AI 助理、质保检查报告编制 AI 助理、会议纪要 AI 助理、培训计划生成 AI 助理、课程编写 AI 助理、薪酬福利 AI 助理、岗位晋升路径规划 AI 助理、数据分析 AI 助理等等。
InfoQ:这几个月里,项目有哪些关键的里程碑?
王澍:主要有以下四个关键里程碑:
1. 梳理值得用 AI 重新做一遍的核电行业业务场景
2. 挖掘合适的数据并进行大规模数据清洗
3. 用特定数据进行底座模型的预训练重构
4. 基于底座模型进行各个领域业务领域 AI-copilot 的研发
InfoQ:未来还有哪些领域或问题是团队考虑继续深入的?
王澍:对核电行业来说,核安全摆在最高位置。未来我们会继续深入研究 AI 在安全分析领域的应用,以此来赋能核电厂核安全提升相关业务工作,例如设备可用性分析、隔离边界分析等等,以此来追求卓越高标准,进一步提升核电行业的安全性。此外,我们也注重开发更智能的交互方式和更具价值的功能,以及利用多模态协助现场问题处理等等。
InfoQ:在项目推进过程中遇到了哪些预料之外的困难?用户对于全民 GPT 应用的反馈如何?有哪些比较成功的案例可以分享?
王澍:在核工业大语言模型的研发和推进过程中,团队遇到了多项预料之外的困难,这些挑战不仅体现在技术层面,也体现在数据获取和处理的复杂性上。一些预料之外的困难包括:
a. 核工业知识体系的复杂性:核工业领域的知识体系庞大而复杂,包含大量专业术语和专有知识,这增加了大语言模型训练的难度。
b. 核工业数据的保密性:由于核工业的高保密性要求,几乎没有可用的开源数据,这限制了训练数据的获取。
c. 数据格式的多样性和清洗难度:核工业历史文件格式多样(如 PDF、扫描件、EXCEL、PPT 等),且含有大量的公式和逻辑图,这使得数据清洗工作异常困难。
d. 工作流的独立性和产品设计难度:核电站的工作种类繁多,工作流程相互独立,这增加了产品设计的难度。
e. 评测难度大:对于开放式问题,传统的机器翻译指标无法提供有效指导,奖励模型设计等方面遇到阻力。
f. 核工业专有术语的挑战:核工业中存在大量的专业黑话和专有编号系统,这些未经训练的传统模型难以处理。
面对这些挑战,采取了一系列创新性的解决方案:
• 构建核工业语义库:通过系统化梳理核工业相关的教材、设计文件、工作文件、规程等数据,构建了国内最大规模的核工业语义库,总数据量超过 20b tokens。
• 开发数据处理平台:开发了专用的大语言模型数据处理平台,支持多种数据格式的处理,自动清洗出适用于模型训练、微调的数据集。
• 训练核工业专用黑话库:清洗并注入所有核工业所需的国标、行标至本地知识库,并完成模型训练,提升了模型的专业性和准确性。
通过上述努力,取得了显著的效果:
1. 提升生产力:使用者能够通过大模型赋能的 SAT 体系进行 7×24 小时的一对一讲解,显著提升了学习效率和生产力。
2. 优化培训知识点:通过收集的大数据分析培训知识点热力图,反馈给培训部门优化课程结构,形成正反馈机制。
3. 核工业大语言模型商城:开放核工业大语言模型商城,支持个人根据业务需要训练并上传专属模型,促进了个性化发展和效率提升。
这些成功案例不仅展示了大语言模型在核工业领域的应用潜力,也证明了面对复杂挑战时,通过技术创新和持续努力可以达到令人满意的解决方案。
InfoQ:在这样一个跨领域的项目中,团队是如何组织协作的?
王澍:在垂直领域大模型的研发上,设计好需求,外包给某个供应商的做法,已经不再适用,碰了几次壁之后,我们找到了联合高校走产学研的道路。我们与浙江大学 BEST 计划、箴理科技联合组建了人工智能实验室。三方共同出资出人,如今我们的科研团队已经接近 30 人,我们的硬件配置也在核电行业处于领先地位。
另外,在宁德核电内部,我们还有一支“复合型”的科研力量,他们是各个工作领域的佼佼者。他们一边学习大模型的技术原理和应用场景,一边思考如何将人工智能技术应用到各自的工作岗位。总结起来,这是一种全新的两级式组织协作模式:第一级以实验室的科研力量为核心,它融合了人工智能技术专家与核电业务专家,主攻核电大模型和无代码平台研发,第二级以一线工作者为核心,他们使用实验室的“底层工具“开发应用。而将两级有机结合的关键是”复合型人才的培养“。
InfoQ:这个项目完成后,对核电行业乃至整个能源行业会产生怎样的影响?
王澍:我们是吃螃蟹的人,也正在摸索着石头过河。这个项目完成后将极大地提升核电行业知识管理、在岗培训的效率,同时降低人员的低脑力工作负荷,将时间和精力投入到其他更有价值、创造性的工作中去。
核电行业是工业场景中相对复杂、安全性能要求极高的场景。如果 AI 能力在如此复杂的场景中被验证可行,打通了核电场景之下的检修策略的生成、安全风险分析、各类长文本报告的自生成等 AI 能力。那么,对其他相对来说更为简单的工业场景,如化工、火电、制造业等,将带来极大的借鉴意义。
评论