写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131335

评论

发布
暂无评论
发现更多内容

canvas

Jason199

canvas 8月月更

Kubernetes你不知道的事

CTO技术共享

开源 签约计划第三季 8月月更

开源一夏|OpenHarmony如何选择图片在Image组件上显示(eTS)

坚果

开源 OpenHarmony 8月月更

Kubernetes 计算CPU 使用率

CTO技术共享

开源 签约计划第三季 8月月更

学习Apache ShardingSphere解析器源码(一)

我不吃六安茶

ANTLR Apache ShardingSphere

vue高频面试题合集(一)附答案

helloworld1024fd

Vue

云服务器基于 SSH 协议实现免密登录

昆吾kw

Linux SSH 云服务器

Kubernetes 维护技术分享

CTO技术共享

开源 签约计划第三季 8月月更

React Redux 组件更新/渲染原理 connect 中的 mapStateToProps

HullQin

CSS JavaScript html 前端 8月月更

超大模型工程化实践打磨,百度智能云发布云原生 AI 2.0 方案

Baidu AICLOUD

资源调度 异构计算 AI加速 GPU容器虚拟化 云原生AI

Thread State 详解

自然

Thread 8月月更

【LeetCode】把二叉搜索树转换为累加树Java题解

Albert

LeetCode 8月月更

Spring 全家桶之 Spring Data JPA(一)

小白

8月月更

OAuth Client默认配置加载

阿提说说

Spring Security OAuth

开源一夏 | 参与开源能让人更幸福

石云升

开源 开源社区 8月月更

vue高频面试题合集(二)附答案

helloworld1024fd

Vue

参天生长大模型:昇腾AI如何强壮模型开发与创新之根?

脑极体

MySQL高级指令

武师叔

8月月更

《DevOps围炉夜话》- Pilot - CNCF开源DevOps项目DevStream简介 - feat. PMC成员胡涛

玩转Devop和研发效能DevStream/DevLake

开源 DevOps cncf WLB

IFIT的架构与功能

穿过生命散发芬芳

8月月更 IFIT

API服务网关

阿泽🧸

API网关 8月月更

元宇宙社交应用,靠什么吸引用户「为爱发电」?

融云 RongCloud

元宇宙

Kubernetes 选举机制HA

CTO技术共享

开源 签约计划第三季 8月月更

鲲鹏编译调试及原生开发工具基础知识

乌龟哥哥

8月月更

一次由groovy引起的fullGC问题排查

转转技术团队

2022-Java后端工程师面试指南-(计算机网络)

自然

网络 watt network 8月月更

ThreadLocal全面解析(一)

自然

ThreadLocal 8月月更

10道不得不会的Docker面试题

JavaPub

redis Docker

风控逻辑利器---规则引擎

转转技术团队

Java 规则引擎 风控 后端、 特征工程

开源一夏 | 盘点 GitHub 那些标星超过 20 K 的 Golang 优质开源项目

宇宙之一粟

GitHub 开源 Go 语言 gopher 8月月更

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章