写点什么

百度 AIOps 黄金指标异常检测技术实践

  • 2019-08-29
  • 本文字数:653 字

    阅读完需:约 2 分钟

百度 AIOps 黄金指标异常检测技术实践

请求量、响应时间、错误数和容量是运维领域的四大黄金指标,针对黄金指标的异常检测技术是故障发现和故障诊断的基础。但一直以来,黄金指标异常检测技术都是一个复杂的问题。一方面,需要算法针对不同指标训练不同的模型,并且要能满足 Oncall 工程师对高准确召回率的要求,另一方面,历史数据集中的故障数据比例不高,数据标注成本较大,这就要求算法自己有能力识别并排除噪声数据,第三,故障发现、诊断、自愈等场景对于准确率和召回率的倾向不同,算法需要具备按场景调节的能力。 本次演讲,我们将介绍百度 AIOps 黄金指标异常检测技术。我们的算法已经覆盖了百度所有业务线的故障发现,并且也在故障诊断和自愈场景有了很多的实践。 百度资深软件研发工程师王博即将在 QCon 全球软件开发大会(上海站)2019分享《百度 AIOps 黄金指标异常检测技术实践

内容大纲

  1. 黄金指标监控背景

  2. 黄金指标监控体系


2.1 基于高斯核密度估计的延迟监控方法


2.2 基于 Beta 分布核密度估计的容量监控方法


2.3 基于二项分布的错误数监控方法


2.4 基于泊松分布的流量监控方法


  1. 应用效果

  2. 总结及展望

听众受益

  1. 运维黄金指标的传统监控方法及其缺陷;

  2. 基于概率统计的运维黄金指标监控方法。


嘉宾介绍


王博,2014 年 6 月于北京理工大学取得计算机硕士学位,加入百度后一直从事 AIOps 算法与架构方面的工作,致力于黄金指标异常检测体系、AIOps 前沿算法研究与落地、新一代报警系统等相关工作。本次演讲希望能给大家分享百度在黄金指标异常检测策略研究过程中的经验,与大家共同探讨提高。


更多智能运维的相关分享请访问 QCon 上海 2019 官网。


2019-08-29 12:1610096

评论

发布
暂无评论
发现更多内容

第二章:产品思维和产品意识(下) - 作业 - 为云 g

Weiyung

产品训练营-第三次作业

Geek_娴子

产品经理训练营 - 第二章作业 (二)

joelhy

产品经理训练营

【作业-03】解决方案的设计与积累

西西里奇

如果创意也可以被设计「幻想短篇 26/28」

道伟

28天写作

抽奖助手小程序 利益相关方排序及解决方案

Shine

产品

产品经理训练营第三周作业

happy-黑皮

产品经理训练营

「产品经理训练营」作业 03

🌟

产品经理 产品经理训练营 产品经理训练

VUCA时代-不敏捷就得死

Ian哥

28天写作

第三次作业及总结

青葵

学习

管理笔记[5]:“态度”决定成败,是一切组织管理的前提

L3C老司机

产品经理-第二周作业(2)

LLL777

产品经理训练营--第三章作业

Lucas zhou

产品经理训练营

第 3 周作业

老元宵

week13 数据应用(二)

杨斌

28天瞎写的第二百三十六天:emacs 党的没落

树上

28天写作

offline app

lidaobing

28天写作 offline app

为您收录的操作系统系列-进程管理(上篇)

鲁米

操作系统 进程

即兴演讲的几种实用脚本

熊斌

读书笔记 28天写作

机器学习笔记之:最熟悉的陌生阵

Nydia

开发质量提升系列:日常重视好投产,运维拍肩也不怕

罗小龙

最佳实践 方法论 28天写作 2月春节不断更

产品经理训练营第二章作业(二)

猫。

产品训练营第三章-第一节小结

skylar

车载操作系统 (28天写作 Day26/28)

mtfelix

28天写作 车载操作系统 AOS QNX

第三周作业

BlueSky

利益相关者排序

Geek_a32093

关注产品的利益相关者,想想他们的问题,自己设定一些前提,做个简单的排序。

mas

产品经理训练营-第三周作业

玖玖

03- 抽奖小助手的那个「谁」

学习高手song轻松

利益相关者的问题及方案

梁媛

产品训练营·第三周作业 & 总结

tiu

百度 AIOps 黄金指标异常检测技术实践_QCon_王博_InfoQ精选文章