10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

基于统计的预警:同环比预警实现深度剖析

  • 2020-02-06
  • 本文字数:2708 字

    阅读完需:约 9 分钟

基于统计的预警:同环比预警实现深度剖析

一、UAV 预警功能简介

UAV.Monitor 提供了对全维监控指标的预警功能,各类型的监控指标均可配置预警策略,当预警策略被触发后,可通过邮件、HTTP 调用等方式进行通知报警,并会根据预警时间频率等对报警动作进行压制。


预警分为流式预警、统计预警以及混合预警三种。


  • 流式预警会对采集到的每一个监控指标数据进行预警判断,达到实时预警的目的;

  • 统计预警是对指标在固定时间段统计值的预警,通常都是定时进行预警判定;

  • 混合预警则是将流式预警与统计预警结合进行预警。


同环比预警就属于统计预警的一种。

二、什么是同环比预警

首先介绍一下同环比的概念,同环比描述的是统计数据的增/降幅度,即某一时间段(本期)的统计结果与之前另一相同长度时间段(基期)的比较结果。同比表示的是本期与上一个同期的比较,比如今年 4 月与去年 4 月比较,今天 8 点到 9 点与昨天 8 点到 9 点比较;环比表示的是本期与上期的比较,如今年 4 月与今年 3 月比较,今天 8 点到 9 点与 7 点到 8 点比较。而同环比预警则是对一段时间内监控指标的统计结果同比上一同期(或环比上期)的增/降幅进行预警,即指标的同/环比计算结果超过了策略指定的增/降幅度则进行报警。

三、同环比预警的实现

3.1 预警策略

预警条件与动作由预警策略定义,预警策略的结构如下:


strategy  
{
"type":"",
"instances":[],
"conditions":[],
"relations":[],
"actions":[]
}
condition
{
"expressions":[]
}
复制代码


一个预警策略(strategy)包含多个预警条件(condition),condition 是最小的预警判定元,每个 condition 可包含多个表达式(Expression);预警表达式定义了单一预警条件,表达式又分为统计(stat)表达式和流式(stream)表达式两种,分别对应统计预警条件与流式预警条件;relations 中各 relation 对应各 condition 中策略表达式 Expression 的逻辑判断关系。instances 表示该预警影响的实例,actions 表示预警触发后的报警动作,type 表示预警策略的类型,type 根据包含的表达式种类分为含统计表达式的统计(stat)策略和只含流式表达式的流式(stream)策略。

3.2 同环比预警表达式定义

同环比的计算公示为:同/环比值=本期数-基期数,同/环比率=(本期数-基期数)÷基期数×100%。根据计算公式,我们需要的输入条件是:


1)需预警的指标名。


监控的各项数值型指标均可作为预警的指标,如 cpu、访问量等。


2)本期时间段与基期时间段。


由于预警是一个比较实时性的动作,所以我们把时间段限制在了 24 小时内,对于大于 24 小时比如一周或一个月的统计值或同环比,以周报或月报的形式直接统计效果更好。基期时间则根据同比周期或环比间隔计算得出。


3)指标在时间段内统计值的计算方式。


同环比比较的是指标在一段时间内的统计值,统计方式有求和、求平均等。由于 UAV 的监控历史值都存储在 opentsdb,可通过 opentsdb 自带的聚合操作进行统计值的计算。


4)预警阈值


增/降幅上限,可设置为数值型阈值或百分比阈值。


同环比预警属于统计预警,所以同环比预警表达式也是统计(stat)类型的表达式。综上,同环比预警表达式结构如下。


expression  
{
"type":"stat",
"arg":"" //预警指标
"time_from":"" //初始时间段-from
"time_to":"" //初始时间段-to
"interval":"" //环比间隔(同比则此项为空)
"unit":"" //同比周期(环比则此项为空)
"aggr":"" //统计方式
"upperLimit":"" //比值上限
"lowerLimit":"" //比值下限
}
复制代码

3.3 预警策略判定原理

预警模块通过流式条件或定时任务触发对预警表达式的判定,过程如下


1571884305168017985.jpeg


当预警策略判定被触发时,各 condition 独立进行判定,遍历其中的各个 Expression 进行判定,然后将 Expression 判定结果按 relation 定义的逻辑关系进行组合判断,若结果为 true 则将结果汇总到策略判定结果,然后整合策略判定结果进行报警。

3.4 同环比预警判定原理

同环比预警属于统计预警的一种,所以同环比的预警流程就是统计预警的预警流程,预警模块启动一个用于统计策略判定的 Timer,每分钟(因为统计表达式的时间都是以分钟为单位,所以每分钟轮询一次即可)轮询一次策略,并触发统计策略的判定。


1571884312968007796.jpeg


当策略被触发后,便会遍历各 condition 下的表达式,进行一一判定,定时任务触发表达式判定的规则如下。


1571884320428014389.jpeg


当最小判定元 condition 内只有统计表达式时,遍历判定各统计表达式,首先会判定是否是统计表达示的判定时间,同环比表达式根据属性值 time_from,time_to 和环比间隔或同比周期来确定。若不是判定时间,考虑到多个统计表达式的组合判定情况时,各表达式的判定时间可能不一致,我们会取出缓存中上次的未过期的判定结果返回。若是判定时间,则进行同环比计算判定,构造 opentsdb 查询语句调用 API 查询本期值与基期值,计算得出同/环比值(率),并与阈值进行比较得出判定结果,结果会缓存到 redis,这里也会将此 condition 的判定置为有效,因为如果 condition 里的表达式都未达到判定时间,这次判定其实是无效的。


若 condition 内既有统计表达式又有流式表达式(即为混合预警)时,统计表达式会进行正常的判定运算操作,但对于定时任务触发的流式表达式则直接返回 false,因此 condition 判定结果也为 false。


混合预警的最终判定是在流式条件触发预警策略时产生,condition 中的流式表达式的判定会正常进行,统计表达式的判定过程如下


1571884327598090488.jpeg


如果流式条件的触发时间在表达式的判定时间(误差一分钟)内,会直接从缓存获取由定时任务触发策略时计算得出的未过期的判断结果返回,返回结果便可与流式表达式的结果一同得出混合预警的结果。


判定结果返回后,会根据预警表达式信息及判定结果生成报警信息。如图


1571884335658035393.jpeg


以上便是同环比预警的完整实现过程。

四、同环比预警的应用

实时预警关注的是系统的瞬时状态,同环比预警则反映了指标的变化趋势以及与过去同期相比的波动状态。比如系统服务访问量异常检测,由于系统量可能根据时间有一定的规律性,如周一到周五访问量大,周末访问量小。若采用流式预警只能定义一个预警阈值,不能根据不同时间设置不同的预警阈值,这时可以在业务高峰时间对系统访问量指标配置按周同比预警,便可对业务访问量异常做出及时有效的报警。


有时单一的同环比预警也不足够,比如刚才的情况下,如果我们不仅关心访问量的相对波动还需要报警时的平均响应时间大于某一阈值才报警,这时就需要与流式预警进行结合预警。


同环比预警丰富了预警体系,与流式预警相结合更有助于对系统异常与业务异常的及时精确发现。


下载 UAVStack 的源码(https://github.com/uavorg)


本文转载自宜信技术学院公众号。


原文链接:http://college.creditease.cn/detail/313


2020-02-06 21:331392

评论

发布
暂无评论
发现更多内容

Axure RP 9 与其他原型设计工具的比较:为何它是您的最佳选择?

Rose

原型设计 Axure RP 9汉化 Axure RP 9授权码

英特尔x爱立信:以开放式移动网络加速未来关键领域数字化转型

E科讯

有道QAnything背后的故事---关于RAG的一点经验分享

有道技术团队

语言 & 开发 #开源

易点天下旗下出海应用数据分析与增长模型平台即将发布,一大波内测福利正在袭来!

新消费日报

软件测试管理进阶,快速掌握高效沟通的汇报技巧

测试人

软件测试 自动化测试 测试开发 测试管理

测试管理进阶 | 快速掌握高效沟通的汇报技巧

测吧(北京)科技有限公司

测试

英特尔携手AT&T、德国电信等推动vRAN创新,AI技术提升网络能效

E科讯

TIKV 分布式事务--加锁的 KEY 是什么

TiDB 社区干货传送门

TiDB 底层架构 TiDB 源码解读

运维一款月变更70+次的服务,是一种什么体验?

华为云开发者联盟

开发 华为云 华为云开发者联盟

马帮ERP与ETLCloud快速同步

谷云科技RestCloud

数据同步 ETL 数据集成 ERP

Javascript 重难点总结分享,看到就是赚到!

秃头小帅oi

哪里有office2016安装包?office2016下载含激活工具

Rose

office办公套件 office2016

软件测试学习笔记丨 k8s环境部署实战

测试人

软件测试 测试开发

阿里云大降价后,与主流云厂商的价格对比,你选哪家?

NineData

数据库 阿里云 服务器 云厂商 阿里云降价

WebSocket 连接保持方法详解

Apifox

程序员 前端 后端 websocket 长连接

【论文精读】| 综述:模糊测试的艺术、科学和工程(下)

云起无垠

JavaScript中的包装类型详解

秃头小帅oi

JavaScript 前端

化是渐化,变是顿变:一窥 OpenAI Sora 相关技术的演进

Baihai IDP

程序员 AI openai 白海科技 GenAI

Module2作业

大鹏

资深项目管理者教你快速掌握高效沟通的汇报技巧

霍格沃兹测试开发学社

“智慧工程”助力房企突破发展瓶颈,精细化管理降本增效

Kyligence

大数据 数字化 解决方案 精细化管理

Redisson 框架中的分布式锁

emanjusaka

Java redis redisson 分布式锁

手把手带你快速上手香橙派AIpro

华为云开发者联盟

人工智能 华为云 昇腾 华为云开发者联盟 AI开发板

探索AIGC在腾讯自选股应用

ninetyhe

腾讯 AI 大模型 AIGC

Java实战1

thinkers

线程池、Lambda、Java实战

Solidity案例详解(四)投票智能合约

BSN研习社

区块链 Solidity

把简单留给用户,把复杂交给 AI

Kyligence

大数据 AI 数据治理 指标平台

TIKV 分布式事务--悲观锁

TiDB 社区干货传送门

TiDB 底层架构 TiDB 源码解读 TiKV 源码解读 TiKV 底层架构

一文了解TiDB的资源管控(Resource Control)能力

TiDB 社区干货传送门

实践案例 新版本/特性解读 7.x 实践

文心一言变身虚拟患者,助力医学生轻松开启「实践模式」

飞桨PaddlePaddle

百度 paddle 百度飞桨 开发者说 文心一言

面试官:说说SSO单点登录的实现原理?

王磊

Java 面试

基于统计的预警:同环比预警实现深度剖析_语言 & 开发_UAV_InfoQ精选文章