写点什么

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革

  • 2024-10-14
    北京
  • 本文字数:3282 字

    阅读完需:约 11 分钟

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革

在智能运维领域,大模型技术正引领运维从辅助决策逐步迈向无人化操作。随着行业迅速发展,智能化运维不仅提升了效率,更有效降低了运维风险。


为了深入探讨大模型在运维场景中的应用与挑战,在 10 月 18 日 -19 日,即将落地的 QCon 上海站,我们特别邀请了华为云智能运维首席架构师乔彦辉,分享《大模型在华为云数字化运维的全面探索和实践》。在会前采访中,乔彦辉详细介绍了华为云如何通过大模型与小模型的协同,提升故障处理的自动化与智能化水平,并展望了智能运维的未来趋势,包括运维无人化、技术协同及人机交互的深度融合。


另外,在本届 QCon 上海站,我们也设置了 大模型基础设施与算力优化、AI 应用开发实践、AI 重塑技术工作流程以及云原生工程实践 等专题论坛,欲了解更多精彩内容,可点击原文链接查看。


大模型在运维中的应用、实践和挑战


InfoQ:能否阐述以下大模型技术是如何在运维故障处理场景中提供支持的?


乔彦辉:故障处理是一个非常复杂的过程,从刚开始故障影响面判断,到故障诊断,故障恢复,故障验证,故障事后总结中间涉及大量的人工工作,例如运维知识查询,运维信息检索,运维诊断决策和运维内容总结生成,目前大模型初级应用主要是内容的理解和生成,我们主要通过大模型自动推荐故障的预案,故障报告的总结生成,以及故障管理规范等,其次也利用大模型进行用户查询意图的识别,进行进行对话式的运维信息检索,例如查监控指标,查告警等。


InfoQ:在实现华为云运维助手过程中团队遇到哪些技术挑战?如何通过技术的准确性和可靠性?


乔彦辉:最大的挑战就是大模型幻觉问题的确定性和可控性。我们主要结合大小模型思路,例如在运维意图识别阶段,我们首先基于文本 embedding 的相似性做了第一层的分类,其次针对无法区分的意图再去结合大模型意图纠偏,同时也基于异常数据训练意图小模型进行纠偏分类,最终达到意图识别准确率 80% 的效果,重点是我们通过这套方案比较好的可以进行持续小成本迭代,避免完全依赖大模型同时导致无法可控和确定性的优化我们的目标。所以设计一套方案出了要考虑适配性,同时还要考虑技术的准确性和可靠性确保不能出现人无法控制的阶段。


InfoQ:运维知识和语料治理是一个复杂过程,华为云如何应对这个挑战?


乔彦辉:我们主要是以实际应用出发,在瞄准大模型应用运维场景优先选定了两个高能耗,高 AI 匹配的场景,事件处理和故障处理。针对知识部分首先基于我们的目标确定知识地图,其次确定知识 owner 和知识责任人,另外构建了知识管理中心和对应的知识运用团队,能够端到端的看到知识的全局同时也能看到我们知识的消费效果。语料部分在早起也是保持一个快速迭代的模式,优先结合场景快速基于人工的意图构建了一批,但目前我们正在构建运维的公共语料数据级,因为我们认为大模型应用运维的下一个阶段将从模型走向数据,目前我们在语料层面是遵循了一一套数据建设和管理的全生命周期流水线,严格把关语料数据的配比,同时质量,另外就是语料的消费。


InfoQ:大模型在运维故障处理的具体的应用场景?华为云运维 Copilot 是如何结合 LLM 和 AI Agent 提升运维效率?


乔彦辉:首先,故障的预案推荐和生成,主要结合 RAG 的方式做到自动检索故障预案和内容总结,帮助故障恢复人员快速找到预案。其次,故障信息总结:故障第一时间发生后,我们结合大模型自动总结多种信息,例如告警,变更,监控指标等多种信息,自动分析数据形成故障信息总结概要,帮助大家早起快速了解故障全局,这里核心就是代替人,过去想故障信息总计,需要多个人员跳转到不同的系统来查询,其次再总结,包括预案生成,目前通过大模型自动总结,代替了多个人力解决类似的问题。


华为云的运维 Copilot 定位是一个助手,因为 LLM 主要是在内容的理解和生成上,但一个助手需要端到到的处理一些任务,例如查询变更等操作,我们目前构建了很多个 Agent 核心解决的一个端到到的一个动作,过程中设计意图理解和知识检索,以及一些内容的理解生成采用了 LLM 去做,我们更多的是构建一个运维 Copilot Stack ,核心把 LLM 和 AI Agent 技术结合起来,编排起来最终通过一个助手的端对接到用户层,过程中的提升效率核心是减少人的参与,让整个任务越来越自动化,智能化。


运维知识和技术协同


InfoQ:运维知识问答和信息查询,大模型如何提供技术支持?


乔彦辉:知识问答主要是结合 RAG 的思路来构建,信心查询主要我们应用了大模型作用于用户的意图理解识别,同时也包含部分的意图中槽位的提取等。


InfoQ:大小模型协同,实际中如何实现,有哪些关键的技术点?


乔彦辉:这里我们主要是用在网络的故障诊断,因为故障诊断是一个复杂过程,涉及到各种信息的查询,告警,变更,指标,以及诊断逻辑。大模型因为天然对于决策逻辑和推理能力不足,这里我们主要借助于 COT,自动生成故障诊断步骤,然后执行步骤过程中设计到复杂的诊断计算我们主要通过诊断小模型,例如传统的故障决策树或者异常评分模型,大模型基于诊断的结果进行内容的总结。给出具体的诊断的根因。这里的关键技术点 COT 的设计,配合诊断决策过程中执行链的动态编排,其次大小模型协同等。


InfoQ:确定性意图理解和 RAG 扮演什么角色在智能运维中?以及提升决策准确性?


乔彦辉:智能运维是一个比较大的话题,传统智能运维主要是基于大数据和 AI 增强传统运维工具的能力,构建一些高阶的分析能力。确定性意图理解和 RAG 引擎更多的是面向大模型出来之后我们构建运维 Copilot 依赖的两个能力,从长期来看更多是两个技术,未来提升决策准确性我认为还是要依赖数据,以及基础大模型,不断迭代数据,其次不断的去拥抱基础模型,这些是不会变化的,其次也是持续迭代的。


InfoQ:华为云如何保障确定性?


乔彦辉:前面的基本讲过了,华为云主要是面向具体的问题,先定义出问题的空间,不会先上来就基于大模型直接做,因为早起华为云语料较少,我们采用了小模型主导大模型辅助,和你想就是可控制,可迭代,我们下一个阶段可能会采用大模型为主,小模型为辅。但核心需要构建语料,我们现在正在按照 10 倍,20 倍未来可能 100 倍的扩展语料。另外我们的意图识别准确率最终需要做到 90% 以上,所以确定性我认为是第一部的,不能有任何需要快速纠偏的,我都把问题抛给大模型,或者用一个较高的成本进行大模型的 SFT。


智能运维的未来展望?


InfoQ:如何看待未来智能运维的发展趋势?华为云有什么长远的规划和目标?


乔彦辉:随着大模型在行业应用的快速推进,我认为主要会有 3 个趋势,第一个趋势是无人化,智能运维从传统的辅助运维,到决策运维到最后可能代替让你去做,核心就是无人化,智能融入到运维的工作流程中。第二个是智能运维技术本身,传统的运维算法和大模型技术协同将是长期的一个形态,这里主要是结合成本和发展规律。第三个是人机结合技术,随着大模型应用,出了 AI 本身如何讲机器和人的做一个很好的交互也是一个非常重要的部分,这里比较看好运维数字助理。


华为云长远的规划目标主要面向两部分,华为云自身和外部的客户,我们构建了一个“运维大脑”,核心作为运维领域的智能决策中枢,包含底层数据建设,大小模型算法建设,智能决策以及运维多智能体协同处理引擎,和上游的各个智能应用,他的核心模式是智能运维的端到端构建,主要目标保障华为云和客户的整体稳定性和 0 风险,同时围绕运维数字助理构建极致的运维效率。



嘉宾介绍:


乔彦辉 华为云 智能运维首席架构师,2011-2022:担任蚂蚁集团高级技术专家,负责建设公司级大数据平台和 AI 推理平台,支持公司用户风控,推荐,搜索和金融等核心业务,输出 10+ 专利。2022- 至今:担任华为云计算智能运维首席架构师,围绕华为云稳定可靠和运维极致效率,结合运维数据,算法和 LLM ,AI Agent 技术打造华为云运维 Copilot,实现全球运维能力领先。


会议推荐


10 月 18 日 -19 日,QCon 全球软件开发大会将在上海举办。从云原生工程、架构、线上可靠性、大前端、技术管理等经典内容,到 AI Agent、AI Infra、RAG 等大热的 AI 话题,60+ 资深专家共聚一堂,深度剖析相关落地实践案例,共话前沿技术趋势。大会火热报名中,详情可联系票务经理  17310043226 咨询。



2024-10-14 19:004602

评论 1 条评论

发布
用户头像
大数据时代遥遥领先
2024-10-16 19:20 · 内蒙古
回复
没有更多了
发现更多内容

三菱课堂笔记 GX Works2基础

万里无云万里天

自动化 三菱

三菱课堂笔记 MELSEC Q系列基础

万里无云万里天

自动化 三菱

三菱课堂笔记 MELSENSOR基础(激光位移传感器版)

万里无云万里天

自动化 三菱

币圈六大历史惨案,519将至暴跌还是暴涨?

区块链开发团队DappNetWork

区块链 交易所开发软件开发 nft卡牌 dapp合约开发

用常用组件感恩父亲节

坚果

HarmonyOS HarmonyOS框架

7天爆拉100倍,解读以太坊ERC-404协议,埋伏赚钱机会!

区块链开发团队DappNetWork

以太坊现货ETF通过,市场行情并不买账,ETF的故事到头了?

区块链开发团队DappNetWork

三菱课堂笔记 MELSEC L系列基础

万里无云万里天

自动化 三菱

2024年影响力排名显示:KIIT在印度最具影响力的大学中名列第六

财见

三菱课堂笔记 MELSEC iQ-R系列安全CPU · 安全远程IO

万里无云万里天

自动化 三菱

三菱课堂笔记 PLC入门

万里无云万里天

自动化 三菱

三菱课堂笔记 PLC维护

万里无云万里天

自动化 三菱

数智领航 云启未来|华为云618营销季全面启动

YG科技

三菱课堂笔记 MELSEC F系列基础

万里无云万里天

自动化 三菱

IBM:能力出海与企业出海的数字化能力

财见

三菱课堂笔记 MELSEC iQ-F系列基础

万里无云万里天

自动化 三菱

三菱课堂笔记 MELSEC iQ-R系列基础

万里无云万里天

自动化 三菱

视频剪辑可以赚钱吗 快速学会视频剪辑的方法 会声会影视频制作教程

阿拉灯神丁

视频剪辑处理 视频课 会声会影2023 音乐软件 视频剪辑软件

不只是程序员的专利:Python为何成为全民编程语言?

程序员晚枫

Python 数字化 智能化 电子化

吉他谱反复记号有哪些 Guitar Pro如何加吩咐标记

阿拉灯神丁

吉他学习 吉他谱 Guitar Pro8 软件下载

中小企业转型有招,华为云618营销季步步“智”胜

YG科技

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革_AI&大模型_李忠良_InfoQ精选文章