在CNUTCon上海2018大会上,周伟讲师做了《百度云报警通告系统的下一幕》主题演讲,主要内容如下。
演讲简介:
如何快速发现产品故障是运维领域的重要课题,而监控系统是故障发现中的重要一环。Noah 监控系统是百度智能云自主研发的监控平台,该平台提供海量指标采集、分析计算、存储、报警通告等功能,为提升百度各业务的可用性和用户体验做出了重要的贡献。
本次演讲将重点剖析百度云 Noah 监控系统的重要一环 ——报警通告系统。
报警通告系统包括异常判断、事件管理、报警发送三个部分。
在报警通告部分,我们将介绍报警通告系统如何轻松应对每秒千万级别指标的异常判断?如何支撑智能异常检测和多维度数据分析等最前沿的 AIOps 算法的落地。
在事件管理部分,我们将介绍如何建立报警的逐级通告机制,防止运维人员遗漏核心报警。
在报警发送部分,我们将介绍如何挖掘异常事件之间的潜在关联并动态合并,以及如何应对报警风暴对系统架构的冲击。
最后,我们会总结百度云监控的工程实践经验 。
主要内容:
报警通告系统存在的挑战;
方案介绍(AIOps 算法的落地、逐级通告、报警合并);
报警通告系统的架构;
工程实践经验。
听众受益:
学习 AIOps 监控相关算法的落地方案;
学习逐级通告和报警合并的设计方案;
学习百度云监控的工程实践经验。
讲师介绍:
周伟
百度 智能云事业部资深研发工程师
15 年加入百度智能云事业部,目前负责百度云 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。
完整演讲 PPT 下载链接:
https://cnutcon.infoq.cn/2018/shanghai/#schedule
评论