写点什么

自动找出复杂故障根本原因,阿里 AI 获智能运维国际竞赛冠军

  • 2022-03-25
  • 本文字数:1044 字

    阅读完需:约 3 分钟

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军

家里 WIFI 如果发生故障,检查下路由器基本就能发现原因。但对于拥有复杂架构的云计算平台来说,要找出故障原因极为复杂和耗时。阿里打造出根因分析通用框架,利用 AI 快速定位故障根因,已应用于部分云计算产品,节省时间超过一半,准确率超过 80%。该框架也在近期举办的 ICASSP’22 AIOps Challenge 网络智能运维国际竞赛中获得冠军。

 

ICASSP(International Conference on Acoustics, Speech and Signal Processing)是信号处理领域规模最大的国际学术会议。其中,ICASSP’22 AIOps Challenge 网络智能运维竞赛由香港中文大学(深圳)等机构主办,希望用机器学习等方式来自动找出网络故障的根本原因,此次共有 382 支队伍参赛。由阿里达摩院决策智能实验室和阿里云计算平台组成的团队获得冠军,并受主办方之邀将其中主要算法以论文的形式发表在 ICASSP 上。

 

阿里团队 MindOps 获得竞赛冠军

 

所谓根因分析(Root Cause Analysis),是指找到故障的根本原因,这是智能运维 AIOps 的重要研究方向。以云计算平台为例,其稳定性至关重要,但由于架构复杂,模块众多,一旦出现故障,如果纯靠人工来排查费时费力,已难以满足需求。因此,基于机器学习等智能方式的根因分析应运而生。

 

不过,根因分析的技术门槛颇高,挑战重重。首先是运维数据往往来源于不同系统,形式多样,需要大海捞针找出关键信息。其次是容易被表象迷惑,大型系统中,故障传播的链路往往很长,根本原因可能隐藏在深层次节点中。此外还存在标注样本数据少,异常少见等问题。

 

阿里打造的根因分析通用框架,解决了上述难题。针对多源异构的海量数据,以时序分析技术来提取关键信息;针对标注样本少,利用时间序列相似性等多种方法来进行数据增强;针对故障传播链路长,运用结合了专家经验和因果图的图算法来找出根本原因。

 

该框架构建了丰富的算法工具箱和兵器库,已应用于阿里云实时计算、通用计算等多个重要产品中,如 Blink/Flink、MaxCompute、Dataworks 等,帮助运维人员及时发现异常,快速定位问题根因,准确率达 80%以上,相较之前能节省时间一半以上。比如实时计算平台的热点机器问题,会导致负载过高、作业缓慢,其原因链条较长,可能出自硬件故障,也可能是作业本身,人工排查较为耗时,而使用该框架能够快速定位根因。此外,它还能帮助发现较为隐蔽的异常,比如部分机器下线会导致资源不足,迫使一些客户等待排队,这些在常规集群整体作业中难以发现。


根因分析工具箱

 

此外,基于该框架的一篇论文之前还被国际顶会 CIKM2021 收录,研究人员受邀作 30 分钟的在线演讲(Oral Presentation)。

2022-03-25 12:015954

评论 2 条评论

发布
用户头像
👍,能分享一下CIKM2021的论文链接吗
2022-03-26 09:57
回复
没有更多了
发现更多内容

第四章 C语言之牛客网刷题📖笔记

Dream-Y.ocean

c 算法 9月月更

向量数据库入坑:入门向量数据库 Milvus 的 Docker 工具镜像

Java-fenn

Java

腾讯云数据库自研内核全新升级 新架构比原先性能提升20%

Java-fenn

Java

MyBatis-Plus(三、增删改查)

MySQL MyBatisPlus 9月月更

羊了个羊”通关修改思路

Java-fenn

Java

【精通内核】Linux内核rcu锁深度解析

小明Java问道之路

RCU 内核 Linux内核 9月月更 rcu锁

【C语言】自定义类型(结构体类型+枚举类型+联合体类型)[进阶篇_ 复习专用]

Dream-Y.ocean

c 结构体 9月月更

高级前端手写面试题

helloworld1024fd

JavaScript 前端

pod(一):Kubernetes(k8s)创建pod的两种方式

Java-fenn

Java

阿里、字节、美团我都面了,offer也拿到了,全靠这份Java面试题!

收到请回复

Java 云计算 开源 架构 编程语言

COSI:使用 Kubernetes API 管理对象存储

Java-fenn

Java

Java进阶(二十三)java中long类型转换为int类型

No Silver Bullet

Java 类型转换 9月月更

MySQL 如何查找删除重复行

CTO技术共享

npm,pnpm,yarn,npx的那些事儿

Java-fenn

Java

Java程序员:为了跳槽刷完1000道真题,没想到老板直接给我升职了!

收到请回复

Java 云计算 开源 架构 编程语言

算法、算力、数据,AI落地现在还需要AI工程化

Java-fenn

Java

Cryptocell-712安全引擎概述

Java-fenn

Java

终于懂了,RPC和OpenApi的区别

知识浅谈

RPC OpenAPI 9月月更

Java 多线程:并发编程的三大特性

Java快了!

Java多线程

【指针内功修炼】函数指针 + 函数指针数组 + 回调函数(二)

Albert Edison

数组 指针 C语言 9月月更 指针数组

大数据ELK(三):Lucene全文检索库介绍

Lansonli

9月月更 EKL

社招前端一面经典手写面试题集锦

helloworld1024fd

JavaScript 前端

一个不错的开源项目风控引擎(Radar)

Java-fenn

Java

整理的5种Linux 安装包管理工具

CTO技术共享

基于.NET6的简单三层管理系统

Java-fenn

Java

边缘计算技术及其安全

阿泽🧸

边缘计算 9月月更

【MySQL 进阶】事务二

Aion

MySQL 事务 9月月更 InnoDB存储引擎

无限道具教程最新版9.17——大熊G

大熊G

羊了个羊

《Java面试考点大全》全网首发,带你摸熟20+互联网公司的面试考点!

收到请回复

Java 云计算 开源 架构 编程语言

Kubernetes 网络排查骨灰级

CTO技术共享

从 ABAP Netweaver 到 ABAP Platform,我们一直在努力

汪子熙

SAP abap Netweaver 企业级应用 9月月更

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军_架构_阿里巴巴达摩院_InfoQ精选文章