在 ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。
演讲简介:
监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。
如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:
在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路
在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏
在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失
最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。
内容大纲:
落地 AIOps 对报警架构的挑战
报警系统的业务模型
异常判断子系统
智能异常检测的研发流程
多维度异常判断模型
离线开发框架和近/在线运行平台
事件管理子系统
报警事件模型
基于状态机引擎的报警升级机制
通告发送子系统
报警智能合并
报警流控方案
AIOps 落地实战经验
听众受益点:
了解监控报警的业务痛点和对自身架构的挑战
了解 AIOps 落地过程中的思考和和工程实践经验
讲师介绍:
周伟
百度 资深研发工程师
2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。
范月林
百度 资深研发工程师
2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。
完整演讲 PPT 下载链接:
https://archsummit.infoq.cn/2019/beijing/schedule
评论