写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131298

评论

发布
暂无评论
发现更多内容

AutoCompleteTextView的基本使用

芯动大师

android 控件 AutoCompleteTextView

强强联合:Neovim+ChatGPT | 社区征文

SkyFire

ChatGPT neovim

Portraiture2023人像免费磨皮插件

茶色酒

Portraiture2023

一天吃透Git面试八股文

程序员大彬

git 面试

Kubernetes容器状态探测的艺术

俞凡

Kubernetes 云原生

28岁小公司程序员,无车无房不敢结婚,要不要转行?

程序员晚枫

程序员 收入

如何设计一个优秀的 Go Web 项目目录结构

江湖十年

Go 设计 后端 项目 Web Service

【分布式技术专题】「分布式技术架构」一文带你厘清分布式事务协议及分布式一致性协议的算法原理和核心流程机制(上篇)

洛神灬殇

分布式 2PC 3PC 原理分析 分布式协议

LeSS敏捷框架高效生产力实践

俞凡

敏捷开发 大厂实践

使用OpenAI接口释放ChatGPT API 的力量

devpoint

React nextjs ChatGPT

前端学习路径

阡陌r

架构实战 8 - 消息队列MySql表格设计

架构实战营 「架构实战营」

从混乱到完备:我的研发流程之路

SkyFire

研发流程

在前端领域摸爬滚打7年,我终于掌握了这些沉淀技巧

小鑫同学

架构训练营-模块9秒杀系统

张Dave

国内AGV调度系统到底是什么水平?

申扬科技

调度系统 AGV

前端学习

阡陌r

FL Studio21中文语言版水果编曲工具

茶色酒

FL Studio21

将老人拉出无声的世界,AI是怎么做的?

脑极体

AI医疗

量化合约系统开发(规则开发)丨量化合约开发(源码说明)

系统开发咨询1357O98O718

DAPP智能合约链游开发源码案例丨DAPP智能合约链游系统开发(逻辑及方案)

系统开发咨询1357O98O718

YOLOv5全面解析教程⑥:模型训练流程详解

OneFlow

人工智能 深度学习

Matlab常用图像处理命令108例(二)

timerring

图像处理

分享主流的10个流程管理软件

爱吃小舅的鱼

流程管理 流程管理软件

Spinner(列表选项框)的基本使用

芯动大师

android spinner galley

初识大热的ChatGPT的几点思考|社区征文

穿过生命散发芬芳

ChatGPT

DAPP/LP单双币(子母币)流动性质押挖矿分红系统开发(开发说明及源码)

系统开发咨询1357O98O718

大型供应链物流企业的数字化转型方法论

明道云

JavaScript异步编程的深入理解,使用回调函数实现异步编程

兴科Sinco

JavaScript 前端 前端开发 异步编程

One-YOLOv5 v1.2.0发布:支持分类、检测、实例分割

OneFlow

人工智能 深度学习

极氪汽车 APP 系统云原生架构转型实践

阿里巴巴中间件

阿里云 云原生

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章