2025技术预测|AI研究与应用|小红书、华为仓颉的AI实践 了解详情
写点什么

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革

  • 2024-10-14
    北京
  • 本文字数:3282 字

    阅读完需:约 11 分钟

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革

在智能运维领域,大模型技术正引领运维从辅助决策逐步迈向无人化操作。随着行业迅速发展,智能化运维不仅提升了效率,更有效降低了运维风险。


为了深入探讨大模型在运维场景中的应用与挑战,在 10 月 18 日 -19 日,即将落地的 QCon 上海站,我们特别邀请了华为云智能运维首席架构师乔彦辉,分享《大模型在华为云数字化运维的全面探索和实践》。在会前采访中,乔彦辉详细介绍了华为云如何通过大模型与小模型的协同,提升故障处理的自动化与智能化水平,并展望了智能运维的未来趋势,包括运维无人化、技术协同及人机交互的深度融合。


另外,在本届 QCon 上海站,我们也设置了 大模型基础设施与算力优化、AI 应用开发实践、AI 重塑技术工作流程以及云原生工程实践 等专题论坛,欲了解更多精彩内容,可点击原文链接查看。


大模型在运维中的应用、实践和挑战


InfoQ:能否阐述以下大模型技术是如何在运维故障处理场景中提供支持的?


乔彦辉:故障处理是一个非常复杂的过程,从刚开始故障影响面判断,到故障诊断,故障恢复,故障验证,故障事后总结中间涉及大量的人工工作,例如运维知识查询,运维信息检索,运维诊断决策和运维内容总结生成,目前大模型初级应用主要是内容的理解和生成,我们主要通过大模型自动推荐故障的预案,故障报告的总结生成,以及故障管理规范等,其次也利用大模型进行用户查询意图的识别,进行进行对话式的运维信息检索,例如查监控指标,查告警等。


InfoQ:在实现华为云运维助手过程中团队遇到哪些技术挑战?如何通过技术的准确性和可靠性?


乔彦辉:最大的挑战就是大模型幻觉问题的确定性和可控性。我们主要结合大小模型思路,例如在运维意图识别阶段,我们首先基于文本 embedding 的相似性做了第一层的分类,其次针对无法区分的意图再去结合大模型意图纠偏,同时也基于异常数据训练意图小模型进行纠偏分类,最终达到意图识别准确率 80% 的效果,重点是我们通过这套方案比较好的可以进行持续小成本迭代,避免完全依赖大模型同时导致无法可控和确定性的优化我们的目标。所以设计一套方案出了要考虑适配性,同时还要考虑技术的准确性和可靠性确保不能出现人无法控制的阶段。


InfoQ:运维知识和语料治理是一个复杂过程,华为云如何应对这个挑战?


乔彦辉:我们主要是以实际应用出发,在瞄准大模型应用运维场景优先选定了两个高能耗,高 AI 匹配的场景,事件处理和故障处理。针对知识部分首先基于我们的目标确定知识地图,其次确定知识 owner 和知识责任人,另外构建了知识管理中心和对应的知识运用团队,能够端到端的看到知识的全局同时也能看到我们知识的消费效果。语料部分在早起也是保持一个快速迭代的模式,优先结合场景快速基于人工的意图构建了一批,但目前我们正在构建运维的公共语料数据级,因为我们认为大模型应用运维的下一个阶段将从模型走向数据,目前我们在语料层面是遵循了一一套数据建设和管理的全生命周期流水线,严格把关语料数据的配比,同时质量,另外就是语料的消费。


InfoQ:大模型在运维故障处理的具体的应用场景?华为云运维 Copilot 是如何结合 LLM 和 AI Agent 提升运维效率?


乔彦辉:首先,故障的预案推荐和生成,主要结合 RAG 的方式做到自动检索故障预案和内容总结,帮助故障恢复人员快速找到预案。其次,故障信息总结:故障第一时间发生后,我们结合大模型自动总结多种信息,例如告警,变更,监控指标等多种信息,自动分析数据形成故障信息总结概要,帮助大家早起快速了解故障全局,这里核心就是代替人,过去想故障信息总计,需要多个人员跳转到不同的系统来查询,其次再总结,包括预案生成,目前通过大模型自动总结,代替了多个人力解决类似的问题。


华为云的运维 Copilot 定位是一个助手,因为 LLM 主要是在内容的理解和生成上,但一个助手需要端到到的处理一些任务,例如查询变更等操作,我们目前构建了很多个 Agent 核心解决的一个端到到的一个动作,过程中设计意图理解和知识检索,以及一些内容的理解生成采用了 LLM 去做,我们更多的是构建一个运维 Copilot Stack ,核心把 LLM 和 AI Agent 技术结合起来,编排起来最终通过一个助手的端对接到用户层,过程中的提升效率核心是减少人的参与,让整个任务越来越自动化,智能化。


运维知识和技术协同


InfoQ:运维知识问答和信息查询,大模型如何提供技术支持?


乔彦辉:知识问答主要是结合 RAG 的思路来构建,信心查询主要我们应用了大模型作用于用户的意图理解识别,同时也包含部分的意图中槽位的提取等。


InfoQ:大小模型协同,实际中如何实现,有哪些关键的技术点?


乔彦辉:这里我们主要是用在网络的故障诊断,因为故障诊断是一个复杂过程,涉及到各种信息的查询,告警,变更,指标,以及诊断逻辑。大模型因为天然对于决策逻辑和推理能力不足,这里我们主要借助于 COT,自动生成故障诊断步骤,然后执行步骤过程中设计到复杂的诊断计算我们主要通过诊断小模型,例如传统的故障决策树或者异常评分模型,大模型基于诊断的结果进行内容的总结。给出具体的诊断的根因。这里的关键技术点 COT 的设计,配合诊断决策过程中执行链的动态编排,其次大小模型协同等。


InfoQ:确定性意图理解和 RAG 扮演什么角色在智能运维中?以及提升决策准确性?


乔彦辉:智能运维是一个比较大的话题,传统智能运维主要是基于大数据和 AI 增强传统运维工具的能力,构建一些高阶的分析能力。确定性意图理解和 RAG 引擎更多的是面向大模型出来之后我们构建运维 Copilot 依赖的两个能力,从长期来看更多是两个技术,未来提升决策准确性我认为还是要依赖数据,以及基础大模型,不断迭代数据,其次不断的去拥抱基础模型,这些是不会变化的,其次也是持续迭代的。


InfoQ:华为云如何保障确定性?


乔彦辉:前面的基本讲过了,华为云主要是面向具体的问题,先定义出问题的空间,不会先上来就基于大模型直接做,因为早起华为云语料较少,我们采用了小模型主导大模型辅助,和你想就是可控制,可迭代,我们下一个阶段可能会采用大模型为主,小模型为辅。但核心需要构建语料,我们现在正在按照 10 倍,20 倍未来可能 100 倍的扩展语料。另外我们的意图识别准确率最终需要做到 90% 以上,所以确定性我认为是第一部的,不能有任何需要快速纠偏的,我都把问题抛给大模型,或者用一个较高的成本进行大模型的 SFT。


智能运维的未来展望?


InfoQ:如何看待未来智能运维的发展趋势?华为云有什么长远的规划和目标?


乔彦辉:随着大模型在行业应用的快速推进,我认为主要会有 3 个趋势,第一个趋势是无人化,智能运维从传统的辅助运维,到决策运维到最后可能代替让你去做,核心就是无人化,智能融入到运维的工作流程中。第二个是智能运维技术本身,传统的运维算法和大模型技术协同将是长期的一个形态,这里主要是结合成本和发展规律。第三个是人机结合技术,随着大模型应用,出了 AI 本身如何讲机器和人的做一个很好的交互也是一个非常重要的部分,这里比较看好运维数字助理。


华为云长远的规划目标主要面向两部分,华为云自身和外部的客户,我们构建了一个“运维大脑”,核心作为运维领域的智能决策中枢,包含底层数据建设,大小模型算法建设,智能决策以及运维多智能体协同处理引擎,和上游的各个智能应用,他的核心模式是智能运维的端到端构建,主要目标保障华为云和客户的整体稳定性和 0 风险,同时围绕运维数字助理构建极致的运维效率。



嘉宾介绍:


乔彦辉 华为云 智能运维首席架构师,2011-2022:担任蚂蚁集团高级技术专家,负责建设公司级大数据平台和 AI 推理平台,支持公司用户风控,推荐,搜索和金融等核心业务,输出 10+ 专利。2022- 至今:担任华为云计算智能运维首席架构师,围绕华为云稳定可靠和运维极致效率,结合运维数据,算法和 LLM ,AI Agent 技术打造华为云运维 Copilot,实现全球运维能力领先。


会议推荐


10 月 18 日 -19 日,QCon 全球软件开发大会将在上海举办。从云原生工程、架构、线上可靠性、大前端、技术管理等经典内容,到 AI Agent、AI Infra、RAG 等大热的 AI 话题,60+ 资深专家共聚一堂,深度剖析相关落地实践案例,共话前沿技术趋势。大会火热报名中,详情可联系票务经理  17310043226 咨询。



2024-10-14 19:001

评论

发布
暂无评论

Flink 数据集成服务在小红书的降本增效实践

Apache Flink

大数据 flink 实时计算

SpringBoot3集成Kafka

Java kafka 架构 springboot SpringBoot3

ThreadLocal不过如此

java易二三

Java 程序员 计算机

7种创建方式,带你理解Java的单例模式

华为云开发者联盟

Java 开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

Eudic欧路词典 for Mac(英语学习工具) v4.4.5增强激活版

mac

苹果mac Windows软件 欧路词典 Eudic mac 英语学习工具

PoseiSwap 更新质押系统,并将在 8 月18 日开启“Trident ”快照

大瞿科技

OpenTiny Vue 组件库实现主题配置和UX交互规范自定义

OpenTiny社区

开源 Vue 前端 组件库

SimpleDateFormat 线程安全问题修复方案 | 京东物流技术团队

京东科技开发者

jdk8 线程安全 SimpleDateFormat类 SimpleDateFormat 企业号 8 月 PK 榜

这,就是大模型时代的生产力!

飞桨PaddlePaddle

人工智能 paddle 百度飞桨 文心大模型 WAVE SUMMIT

Java如何生成随机数?要不要了解一下!

java易二三

Java 程序员 random 计算机

鸿蒙生态星河璀璨| 先行者李洋全力以赴,拥抱星辰大海

最新动态

【华秋推荐】无线充电的原理与解决方案

华秋电子

无线充电

React请求机制优化思路 | 京东云技术团队

京东科技开发者

React 前端性能 企业号 8 月 PK 榜 react18 请求机制

Vue 框架提升加载速度的经验分享

FinClip

奖金丰厚 等你来拿!第六届开源创新大赛飞桨赛道下半场来啦

飞桨PaddlePaddle

人工智能 百度飞桨

SpringBoot 太强了,这些优势你需要了解

java易二三

Java 程序员 Spring Boot 后端 计算机

Centos 7系统安装python 3.9.10详细教程。

百度搜索:蓝易云

Python 云计算 Linux centos 运维

直播系统源码协议探索篇(二):网络套接字协议WebSocket

山东布谷科技

软件开发 websocket 源码搭建 直播系统源码 网络套接字协议

一文带你读懂设计模式之责任链模式 | 京东云技术团队

京东科技开发者

源码分析 设计模式 责任链模式 企业号 8 月 PK 榜

Java垃圾回收机制详解及性能优化详解。

百度搜索:蓝易云

Java 云计算 Linux 运维 JVM

基于迁移学习的基础设施成本优化框架,火山引擎数智平台与北京大学联合论文被KDD收录

字节跳动数据平台

大数据 A/B测试 企业号 8 月 PK 榜

WIFI7 M.2 moudle-QCN9274+QCN6274-Pinnacle of WiFi field-support-MU-MIMO-OFDMA-TWT technology

wifi6-yiyi

6G WiFi 7

java——反射与注解

java易二三

Java 程序员 计算机 API 科技

火山引擎DataLeap:助力PICO落地数据流程规范,提升开发效率

字节跳动数据平台

数据中台 数据治理 数据安全 数据研发 企业号 8 月 PK 榜

OLED屏幕,LED,AMOLED哪个更好?

Dylan

LED 显示器 LED显示屏

《知识图谱互联互通白皮书》正式发布,合合信息携手电子标准院共同推动技术规范化发展

合合技术团队

人工智能 知识图谱

华为乔彦辉:大模型如何驱动华为云智能运维无人化变革_AI&大模型_李忠良_InfoQ精选文章