确定性运维受邀出席QCon2024 分享LLM和Multi-agent在运维领域的创新实践

【摘要】 2024 年 4 月 13 日，由 InfoQ 主办的行业技术盛会——QCon 全球软件开发大会 2024 北京站正式开启，华为云 SRE AI 使能专家张曦博士受邀出席智能运维大模型专题大会，和技术爱好者分享确定性运维在 LLM 和 Multi-agent 在运维领域的实验探索经验。

2024 年 4 月 13 日，由 InfoQ 主办的行业技术盛会——QCon 全球软件开发大会 2024 北京站正式开启，华为云 SRE AI 使能专家张曦博士受邀出席智能运维大模型专题大会，和技术爱好者分享确定性运维在 LLM 和 Multi-agent 在运维领域的实验探索经验。

在数字化时代，企业和组织的 IT 系统变得越来越复杂，运维工作也变得越来越繁琐和困难。为了解决这些问题，AIOps 智能运维技术应运而生，而大模型的出现，为 AIOps 更强大的计算、决策与自学能力，极大地提升了 IT 运营的自动化和效率。

张曦博士从智能运维面临的挑战和痛点出发，介绍在企业运维领域应用 AIGC 的实践案例，基于确定性运维的实践经验，提出以 LLM 为中心，基于多 Agent 协同的运维方案，并提出在大模型时代下，对下一代智能运维的思考。

大模型给企业运维带来新挑战。大模型时代，传统智能运维方案面临着很多痛点，包括扩展性有限、手动维护自动运维规则、无法有效利用专家经验和领域知识、人机交互不友好等。异常检测是智能运维的关键起点，构建面向多模态多源运维数据的异常检测基础模型，针对 Metric 数据，通过分组聚合、多维度时序特征提取、时序融合、时序聚类等技术实现高效异常检测。

基于大模型和多 Agent 相结合的运维方案。基于多 Agent 协同的编排调度，实现更全能的多模态数据异常检测基础模型, 结合多 Agent 协同完成运维主流程，异常检测->根因定位->故障分析->修复建议，且框架与算法不依赖具体特定应用场景。结合大模型实现较强的泛化能力，我们通过多个子领域 agent 协同工作，实现运维故障自动诊断和多个任务模型的编排，提升运维效率。

大模型时代下智能运维演讲趋势展望。多 Agent 协同给智能运维带来的变化，实现真正的模块可插拔，由 Agent 自主讨论决策运维动作，选择对应运维工具，参与聊天或者代替主管 Agent 发布指令，通过大模型的强大能力，实现更高效、更主动、更直观的运维工作。

确定性运维与大模型构建稳定可靠的数字化场景

稳定可靠是企业的“生命线”，基于内部实践的“确定性运维”能力体系，华为云与业界同行积极开展互动，吸取各家云上客户意见，梳理出一套能力成熟度模型，给更多处于数字化转型期的企业参考，梳理和识别痛点/短板，制定自身的运维变革目标和转型措施。面向企业构建运维体系和能力，帮助企业持续提升系统可用性，协助客户完成运维变革，实现从“基本运维”能力迈向“确定性运维”能力的转变。

面对大模型等技术的发展，推动企业共建开放生态的合作。华为云构筑开面向全球客户，推出华为云维享会（确定性运维经验交流分享会），未来维享会将举行多种形式的交流活动，与会员共论业务上云后的管理之道，联合会员共创，编写专刊、白皮书和案例集等内容，碰撞行业前沿资讯，加快业务创新。

在未来，面对运维大模型，未来趋势将是以自动化、智能化、可视化和平台化为核心，通过确定性运维体系及实践经验，结合大模型提供智能化的决策，支持和自动化的执行能力，助力提升系统的稳定性、可用性和性能，为企业的业务发展提供有力保障，推动企业运维组织变革，加速数字化转型。

张曦博士简介：犹他州立大学统计学博士，研究方向为 AI for Data、AI for BI、AIOps，时间序列分析等；具有丰富的人工智能在企业场景落地应用的成功经验，应用场景覆盖营、销、服、供、采、制、研发等多领域，支撑华为集团多个业务应用 +AI，带领团队成功攻克 5+ 企业技术难题，并主导发布多个 AI 服务。

原文链接：https://bbs.huaweicloud.com/blogs/425612

创作场景

确定性运维受邀出席 QCon2024 分享 LLM 和 Multi-agent 在运维领域的创新实践