写点什么

AI 驱动的智能异常处置:从异常发现到根因定位|QCon 北京

  • 2025-03-26
    北京
  • 本文字数:1460 字

    阅读完需:约 5 分钟

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


异常处置包含异常发现、问题定界和根因定位等环节,一个高效的异常处置流程对于保障平台的稳定性起到至关重要的作用。然而平台本身的复杂度以及海量的多元异构数据给异常处置带来了巨大的挑战,大模型等 AI 技术的演进则为应对这些挑战提供了新的思路。本次演讲将从阿里云计算平台的运维场景出发,分享从异常发现到问题定界和根因定位各环节的算法选型和设计思路,包括通用的时间序列异常检测、高效的日志聚类和精准的多 Agent 根因定位框架。



张颖莹是阿里云计算平台智能运维算法团队负责人,在智能运维领域深耕 8 年。用产品和服务支撑计算平台 MaxCompute、Flink、Dataworks、PAI 等多个大数据 &AI 产品的智能化运维。多项研究成果被 ICLR,KDD,VLDB, SIGMOD, ICDE,WWW, CIKM,ICASSP 等国际顶会接收,并带领团队获得了 ICASSP 国际智能运维算法大赛冠军。曾受邀在 QCon,ArchSummit,DataFunCon,FlinkForward 等大会发表演讲,同时参与了阿里巴巴开源大数据运维平台 SREWorks 开发和信通院《智能运维能力成熟度模型》行业标准编写。本次会议中,她的详细演讲内容如下:


演讲提纲

1. 阿里云大数据运维背景

  • 阿里云大数据 & AI 平台介绍

  • 异常处置面临的核心挑战

2. 通用异常发现和定界

  • 通用时间序列异常检测

  • 基于下钻和日志聚类的问题定界

3. 多 Agent 根因定位框架

  • Agent 角色设定

  • 工具箱建设

  • 多 Agent 工作流编排

4. 通用异常处置平台构建

  • 大模型应用部署框架

  • 异常处置平台建设

  • 线上应用效果

5. 总结和展望


您认为,这样的技术在实践过程中有哪些痛点?

大模型多 Agent 框架中,用工具的方式整合了算法小模型和运维业务分析工具,这些工具本身的性能和精度,对于大模型最终的推断效果起到关键作用。同时多 Agent 框架本质上实现了复杂任务的拆解,相较于单 Agent 框架会进行更多次的推理,适用于较复杂的平台


演讲亮点

  • 异常发现部分的算法设计充分考虑了运维场景中关注典型异常类型,具备通用性和高性能。相关论文被顶会 SIGMOD/KDD 等接收。同时利用问题定界能力对异常发现结果进行过滤,可以实现有效的告警降噪

  • 根因定位部分采用的大模型多 Agent 框架,基于平台模块进行 Agent 角色的设定,可以模拟出现实世界中不同模块专家协同定位的场景, 同时在每个 Agent 内部整合了算法小模型和运维业务分析工具,增强了结果的可靠性


听众收益

  • 通过阿里云计算平台的实践经验和案例,听众可以了解在 AI 如何赋能运维场景中非常核心的异常处置流程

  • 本次分享介绍的算法框架,已经被国际顶会接收,具备技术前沿性,通过分享观众可以了解框架的技术细节

  • 通过未来展望,听众可以了解智能运维未来发展的趋势和需要攻破的难题


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 19:185647

评论

发布
暂无评论
发现更多内容

Android:2021大厂直通车面试宝典,为你的offer保驾护航

android 程序员 移动开发

AOP与OOP有什么区别,谈谈AOP的原理是什么,腾讯T2大牛亲自讲解

android 程序员 移动开发

Android题集四大组件之Content provider、BroadcastReceiver

android 程序员 移动开发

Android高速下载器实现思路——单个任务的提速与优化,flutter二维码扫描

android 程序员 移动开发

Android:这是一份全面&详细的-热修复-学习指南(1),统统给你解决

android 程序员 移动开发

Android面试必问:Handler、Bitmap(1),kotlin数据库框架

android 程序员 移动开发

英特尔与腾讯以全方位合作 开启云数智时代新征程

科技新消息

Android高工面试(难度:四星(1),真的太香了

android 程序员 移动开发

Android高工:细说 Android 多线程,探究原理知其所以然

android 程序员 移动开发

Android:这是一份全面&详细的-热修复-学习指南,含泪狂刷Android基础面试118题

android 程序员 移动开发

SAP云平台运行环境Cloud Foundry和Neo的区别

汪子熙

云平台 SAP 11月日更

BATJ面霸:程序员可是要改变世界呀!阿里巴巴3面,移动客户端开发岗面试题

android 程序员 移动开发

Android面试抱佛脚:进程间通讯学习,从Binder使用看起

android 程序员 移动开发

Android面试题之Listview篇,2021Android面试心得

android 程序员 移动开发

RabbitMQ详解——RabbitMQ服务端执行逻辑(三)

AiDaddy

RabbitMQ 服务端执行逻辑

Android面试题之Java基础篇,安卓rxjava使用

android 程序员 移动开发

【LeetCode】最长定差子序列Java题解

Albert

算法 LeetCode 11月日更

Android:知道类加载过程面试还是卡壳?干货总结,安卓运行内存监控

android 程序员 移动开发

ARouter源码详解,androidjni开发流程

android 程序员 移动开发

Android面试必备!爆火超全的《Android性能优化全方面解析

android 程序员 移动开发

Android面试必问:Handler、Bitmap,android插件化开源

android 程序员 移动开发

BindService的生命周期分析【我读源码你不读,我吃螃蟹你吃土(1)

android 程序员 移动开发

Android高工面试(难度:四星,Android开发三年月薪才12K

android 程序员 移动开发

Android:手把手教你实现在XML中配置网易云歌手详情滑动效果

android 程序员 移动开发

ASM插桩--多线程运行监测,2021Android大厂面试经验分享

android 程序员 移动开发

BATJ面霸:程序员可是要改变世界呀!阿里巴巴3面(1),flutter下载文件

android 程序员 移动开发

BAT常见Android面试20题详解,小白看完都会了

android 程序员 移动开发

Android高工面试:用Glide加载Gif导致的卡顿,说一下你的优化思路

android 程序员 移动开发

ARouter系列2:源码分析,移动端跨平台开发

android 程序员 移动开发

Android面试:来说一说Context吧,Android中的Context跟Java有什么区别

android 程序员 移动开发

【设计模式】第十一篇 - 装饰模式 - 孙悟空的六神装

Brave

设计模式 装饰模式 11月日更

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章