写点什么

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革

  • 2024-10-14
    北京
  • 本文字数:3282 字

    阅读完需:约 11 分钟

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革

在智能运维领域,大模型技术正引领运维从辅助决策逐步迈向无人化操作。随着行业迅速发展,智能化运维不仅提升了效率,更有效降低了运维风险。


为了深入探讨大模型在运维场景中的应用与挑战,在 10 月 18 日 -19 日,即将落地的 QCon 上海站,我们特别邀请了华为云智能运维首席架构师乔彦辉,分享《大模型在华为云数字化运维的全面探索和实践》。在会前采访中,乔彦辉详细介绍了华为云如何通过大模型与小模型的协同,提升故障处理的自动化与智能化水平,并展望了智能运维的未来趋势,包括运维无人化、技术协同及人机交互的深度融合。


另外,在本届 QCon 上海站,我们也设置了 大模型基础设施与算力优化、AI 应用开发实践、AI 重塑技术工作流程以及云原生工程实践 等专题论坛,欲了解更多精彩内容,可点击原文链接查看。


大模型在运维中的应用、实践和挑战


InfoQ:能否阐述以下大模型技术是如何在运维故障处理场景中提供支持的?


乔彦辉:故障处理是一个非常复杂的过程,从刚开始故障影响面判断,到故障诊断,故障恢复,故障验证,故障事后总结中间涉及大量的人工工作,例如运维知识查询,运维信息检索,运维诊断决策和运维内容总结生成,目前大模型初级应用主要是内容的理解和生成,我们主要通过大模型自动推荐故障的预案,故障报告的总结生成,以及故障管理规范等,其次也利用大模型进行用户查询意图的识别,进行进行对话式的运维信息检索,例如查监控指标,查告警等。


InfoQ:在实现华为云运维助手过程中团队遇到哪些技术挑战?如何通过技术的准确性和可靠性?


乔彦辉:最大的挑战就是大模型幻觉问题的确定性和可控性。我们主要结合大小模型思路,例如在运维意图识别阶段,我们首先基于文本 embedding 的相似性做了第一层的分类,其次针对无法区分的意图再去结合大模型意图纠偏,同时也基于异常数据训练意图小模型进行纠偏分类,最终达到意图识别准确率 80% 的效果,重点是我们通过这套方案比较好的可以进行持续小成本迭代,避免完全依赖大模型同时导致无法可控和确定性的优化我们的目标。所以设计一套方案出了要考虑适配性,同时还要考虑技术的准确性和可靠性确保不能出现人无法控制的阶段。


InfoQ:运维知识和语料治理是一个复杂过程,华为云如何应对这个挑战?


乔彦辉:我们主要是以实际应用出发,在瞄准大模型应用运维场景优先选定了两个高能耗,高 AI 匹配的场景,事件处理和故障处理。针对知识部分首先基于我们的目标确定知识地图,其次确定知识 owner 和知识责任人,另外构建了知识管理中心和对应的知识运用团队,能够端到端的看到知识的全局同时也能看到我们知识的消费效果。语料部分在早起也是保持一个快速迭代的模式,优先结合场景快速基于人工的意图构建了一批,但目前我们正在构建运维的公共语料数据级,因为我们认为大模型应用运维的下一个阶段将从模型走向数据,目前我们在语料层面是遵循了一一套数据建设和管理的全生命周期流水线,严格把关语料数据的配比,同时质量,另外就是语料的消费。


InfoQ:大模型在运维故障处理的具体的应用场景?华为云运维 Copilot 是如何结合 LLM 和 AI Agent 提升运维效率?


乔彦辉:首先,故障的预案推荐和生成,主要结合 RAG 的方式做到自动检索故障预案和内容总结,帮助故障恢复人员快速找到预案。其次,故障信息总结:故障第一时间发生后,我们结合大模型自动总结多种信息,例如告警,变更,监控指标等多种信息,自动分析数据形成故障信息总结概要,帮助大家早起快速了解故障全局,这里核心就是代替人,过去想故障信息总计,需要多个人员跳转到不同的系统来查询,其次再总结,包括预案生成,目前通过大模型自动总结,代替了多个人力解决类似的问题。


华为云的运维 Copilot 定位是一个助手,因为 LLM 主要是在内容的理解和生成上,但一个助手需要端到到的处理一些任务,例如查询变更等操作,我们目前构建了很多个 Agent 核心解决的一个端到到的一个动作,过程中设计意图理解和知识检索,以及一些内容的理解生成采用了 LLM 去做,我们更多的是构建一个运维 Copilot Stack ,核心把 LLM 和 AI Agent 技术结合起来,编排起来最终通过一个助手的端对接到用户层,过程中的提升效率核心是减少人的参与,让整个任务越来越自动化,智能化。


运维知识和技术协同


InfoQ:运维知识问答和信息查询,大模型如何提供技术支持?


乔彦辉:知识问答主要是结合 RAG 的思路来构建,信心查询主要我们应用了大模型作用于用户的意图理解识别,同时也包含部分的意图中槽位的提取等。


InfoQ:大小模型协同,实际中如何实现,有哪些关键的技术点?


乔彦辉:这里我们主要是用在网络的故障诊断,因为故障诊断是一个复杂过程,涉及到各种信息的查询,告警,变更,指标,以及诊断逻辑。大模型因为天然对于决策逻辑和推理能力不足,这里我们主要借助于 COT,自动生成故障诊断步骤,然后执行步骤过程中设计到复杂的诊断计算我们主要通过诊断小模型,例如传统的故障决策树或者异常评分模型,大模型基于诊断的结果进行内容的总结。给出具体的诊断的根因。这里的关键技术点 COT 的设计,配合诊断决策过程中执行链的动态编排,其次大小模型协同等。


InfoQ:确定性意图理解和 RAG 扮演什么角色在智能运维中?以及提升决策准确性?


乔彦辉:智能运维是一个比较大的话题,传统智能运维主要是基于大数据和 AI 增强传统运维工具的能力,构建一些高阶的分析能力。确定性意图理解和 RAG 引擎更多的是面向大模型出来之后我们构建运维 Copilot 依赖的两个能力,从长期来看更多是两个技术,未来提升决策准确性我认为还是要依赖数据,以及基础大模型,不断迭代数据,其次不断的去拥抱基础模型,这些是不会变化的,其次也是持续迭代的。


InfoQ:华为云如何保障确定性?


乔彦辉:前面的基本讲过了,华为云主要是面向具体的问题,先定义出问题的空间,不会先上来就基于大模型直接做,因为早起华为云语料较少,我们采用了小模型主导大模型辅助,和你想就是可控制,可迭代,我们下一个阶段可能会采用大模型为主,小模型为辅。但核心需要构建语料,我们现在正在按照 10 倍,20 倍未来可能 100 倍的扩展语料。另外我们的意图识别准确率最终需要做到 90% 以上,所以确定性我认为是第一部的,不能有任何需要快速纠偏的,我都把问题抛给大模型,或者用一个较高的成本进行大模型的 SFT。


智能运维的未来展望?


InfoQ:如何看待未来智能运维的发展趋势?华为云有什么长远的规划和目标?


乔彦辉:随着大模型在行业应用的快速推进,我认为主要会有 3 个趋势,第一个趋势是无人化,智能运维从传统的辅助运维,到决策运维到最后可能代替让你去做,核心就是无人化,智能融入到运维的工作流程中。第二个是智能运维技术本身,传统的运维算法和大模型技术协同将是长期的一个形态,这里主要是结合成本和发展规律。第三个是人机结合技术,随着大模型应用,出了 AI 本身如何讲机器和人的做一个很好的交互也是一个非常重要的部分,这里比较看好运维数字助理。


华为云长远的规划目标主要面向两部分,华为云自身和外部的客户,我们构建了一个“运维大脑”,核心作为运维领域的智能决策中枢,包含底层数据建设,大小模型算法建设,智能决策以及运维多智能体协同处理引擎,和上游的各个智能应用,他的核心模式是智能运维的端到端构建,主要目标保障华为云和客户的整体稳定性和 0 风险,同时围绕运维数字助理构建极致的运维效率。



嘉宾介绍:


乔彦辉 华为云 智能运维首席架构师,2011-2022:担任蚂蚁集团高级技术专家,负责建设公司级大数据平台和 AI 推理平台,支持公司用户风控,推荐,搜索和金融等核心业务,输出 10+ 专利。2022- 至今:担任华为云计算智能运维首席架构师,围绕华为云稳定可靠和运维极致效率,结合运维数据,算法和 LLM ,AI Agent 技术打造华为云运维 Copilot,实现全球运维能力领先。


会议推荐


10 月 18 日 -19 日,QCon 全球软件开发大会将在上海举办。从云原生工程、架构、线上可靠性、大前端、技术管理等经典内容,到 AI Agent、AI Infra、RAG 等大热的 AI 话题,60+ 资深专家共聚一堂,深度剖析相关落地实践案例,共话前沿技术趋势。大会火热报名中,详情可联系票务经理  17310043226 咨询。



2024-10-14 19:004398

评论 1 条评论

发布
用户头像
大数据时代遥遥领先
2024-10-16 19:20 · 内蒙古
回复
没有更多了
发现更多内容

文心一言 VS 讯飞星火 VS chatgpt (23)-- 算法导论4.2 5题

福大大架构师每日一题

福大大 文心一言 讯飞星火

腾讯T4大牛整理的SpringBoot文档,覆盖你认知中的所有操作

程序知音

Java 架构 微服务 springboot Java进阶

无惧面试!2023最新最全Java面试手册全网首次开放下载

程序员小毕

程序员 多线程 高并发 架构师 java面试

模板一作业

家有两宝

#架构训练营

Python潮流周刊#3:PyPI 的安全问题

Python猫

Python 编程 rust 安全

2023-05-27:给你一个只包含小写英文字母的字符串 s 。 每一次 操作 ,你可以选择 s 中两个 相邻 的字符,并将它们交换。 请你返回将 s 变成回文串的 最少操作次数 。 注意 ,输入数据

福大大架构师每日一题

Go 算法 rust 福大大

未来边缘计算:趋于分布式智能

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

低代码的“钱景”——专业的事交给专业的人来做

引迈信息

低代码 JNPF

Nautilus Chain上线主网,为DeFi和流支付的未来构建基础

股市老人

WritingGPT: 基于ChatGPT和AutoGPT打造个人写作团队

俞凡

人工智能

如何通过Python将JSON格式文件导入redis

华为云开发者联盟

Python redis 华为云 华为云开发者联盟 企业号 5 月 PK 榜

华为ISDP:从ChatGPT说起,企业作业数字化转型需要怎样的平台工具?

科技怪授

Nautilus Chain上线主网,为DeFi和流支付的未来构建基础

鳄鱼视界

深度学习进阶篇-预训练模型[4]:RoBERTa、SpanBERT、KBERT、ALBERT、ELECTRA算法原理模型结构应用场景区别等详解

汀丶人工智能

自然语言处理 深度学习 预训练模型 Transformer BERT

首页推荐!阿里大佬带你一周刷完Java面试题1700页,offer拿到手软

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

一个字牛!腾讯大牛把《数据结构与算法》讲透了,带源码笔记

程序知音

Java 数据结构 算法 后端 数据结构与算法

GaussDB(DWS)条件表达式函数返回错误结果集排查

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

不愧是阿里巴巴内网的“高并发系统设计”学习笔记,全程不讲一句废话!

采菊东篱下

Java 高并发

高并发封神之作的《亿级流量高并发》惨遭GitHub免费开源

小小怪下士

Java 程序员 高并发

【深入浅出Spring原理及实战】「缓存Cache开发系列」带你深入分析Spring所提供的缓存Cache抽象详解的核心原理探索

洛神灬殇

spring 缓存 cache 缓存管理

使用Go语言实现门面模式:简化复杂子系统的访问

Jack

Java 修改项目名称及其相关信息

Andy

面试官:SpringBoot可以同时处理多少请求?

做梦都在改BUG

Java spring Spring Boot 框架

线程的生命周期和常用方法

Java你猿哥

源码 jdk 线程 多线程 Monitor

腾讯T8架构师基于SpringBoot2.x搭建分布式架构

做梦都在改BUG

Java spring Spring Boot 框架

Nautilus Chain上线主网,为DeFi和流支付的未来构建基础

BlockChain先知

分布式事务的21种武器 - 6

俞凡

架构 云原生

2023华为伙伴大会:ISDP发布伙伴体验中心,邀伙伴探索数智化未来

科技怪授

Nautilus Chain上线主网,为DeFi和流支付的未来构建基础

西柚子

C语言编程—数组

芯动大师

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革_AI&大模型_李忠良_InfoQ精选文章