写点什么

博睿数据发布新一代统一告警平台 OneAlert:多源事件统一接入、海量告警降噪收敛

  • 2022-03-01
  • 本文字数:1787 字

    阅读完需:约 6 分钟

博睿数据发布新一代统一告警平台OneAlert:多源事件统一接入、海量告警降噪收敛

近日,博睿数据正式推出了一款多源事件统一接入、海量告警降噪收敛、故障统一管理的新一代告警平台——OneAlert。该平台可以帮助企业在构建数字化运维体系过程中,降低运维成本、提升工作效率,为业务的稳定运行保驾护航。


当前,随着企业数字化转型进程加速,企业的 IT 运行环境日趋复杂,尤其是随着信息化建设的不断深入,信息系统越来越多,各类系统越来越复杂,数据处理量也成倍的增长,极容易产生大面积事件的告警风暴。


为了快速发现自身平台故障,需要使用多个监控平台满足不同场景的监控需求,但各个平台往往互相独立,经常需要在多个平台查看和处理告警,事前发现、事中处理、事后审计都很难统计所有告警信息,使相关人员工作难度加大,导致运维管理成本较高,工作效率低下,运维人员苦不堪言。


博睿数据产品管理部高级总监孙丽在接受 InfoQ 等在内的少数几家媒体采访时表示,当前运维市场监控孤岛化现象非常严重,很多客户监控平台可能达到十几家,包括云厂商监控、容器监控、业务方监控,以及 APM、NPM、DM 厂商监控等等。未来,ITOM 的市场趋势就是统一。因此,统一事件告警平台 OneAlert 应运而生。

数字化趋势下传统 IT 运维的挑战


在数字化趋势下,传统的运维管理流程相关工具暴露了诸多问题。孙丽在接受采访时表示,当前主要存在以下三大问题:


  • 第一,现有的运维系统不是面向业务与用户体验的,而是面向于资源与应用程序的。

  • 第二,孤岛化现象非常严重。尤其是云延伸发展以后,整个环境动态化包括依赖关系特别强,企业业务已经不可观测了。现在监控其实满足不了运维需求,而是需要一个统一的可观测平台。

  • 第三,不够智能。运维工作需要投入大量的精力,如何通过人工智能的方式把运维同学的运维体验和效率提升上去,是一个需要持续思考的问题。总的来说,运维的终级状态就是智能运维,整体上人投入的精力非常低。


博睿数据认为,智能运维绝不仅局限于技术或产品,更是一种理念和策略。智能运维当以数据为基础,以监控为预警,以自动化为导向,以流程为管理,以算法为支撑,以可视化为辅助。基于此,博睿数据发布新一代统一告警平台 OneAlert,助力企业数字化转型。

统一化、规范化、智能化告警管理


据悉,OneAlert 平台是一个集告警接入、告警收敛、告警通知、告警处理、告警分析为一体的统一管理平台,产品整体架构分为事件源的采集层到接入层、存储层、处理层、展示层。



博睿数据首席架构师李骅宸在接受采访时表示,OneAlert 算法框架上层是数据输入,框架里可能有一个接口或者模块,不管是在线实时数据还是离线数据,进行数据传输,数据输入模块之下还有数据计算,主要是在线的聚合实时计算跟指标相关的一些计算技术。下层还要基于过去的日级别、月级别数据,并大量通过 Spark、Haddoop 这种大数据引擎去做一些计算,计算完之后,输出精确的 AI 算法结果的输出模块。


具体而言,OneAlert 平台主要具备以下三大能力:


1、多源事件统一接入,全方位监控覆盖


OneAlert 平台支持对主流运维监控告警源(ZABBIX、Prometheus、阿里云监控等)提供统一的事件接入功能,并对接入的多源异构数据提供标准化的映射处理功能,实现了运维异常事件的全方位监控,避免因自身监控数据相互独立导致重大事件无人发现的监控死角。


2、运维故障标准处理,提升工作效率


接入多来源的告警数据后,OneAlert 平台支持提供统一、实时的故障信息展示,运维人员不再需要登录多个平台查看故障情况,从而提升了异常事件的处理效率;同时,OneAlert 支持针对不同的通知要求选用不同的通知方式,实现将故障快速通知到相关负责人,保证故障及时响应,缩短故障处理时间,最小程度降低对业务的影响;最后,OneAlert 支持对故障进行处理跟踪,实现故障生命周期的闭环管理,使运维故障处理从以前的无序到有序流程化,提升一线运维人员、运维管理人员的整体工作效率。


3、海量告警智能收敛,降低运维成本


OneAlert 平台还支持通过告警降噪功能,对海量杂乱的异常事件进行降噪处理,大大降低了故障分析的信息量;并通过自定义标签收敛、智能 AI 收敛的功能,识别出异常事件之间的关联性,将多个关联事件归并处理成一个故障,从而辅助运维人员聚焦处理关键故障信息,避免告警风暴,极大程度降低整体运维成本。


整体来说,基于博睿数据在运维行业多年的技术积累,OneAlert 平台率先实现了对故障(事前)及时发现、统一管理;(事中)快速响应、精准处理;(事后)分析统计的全生命周期完整管控。

2022-03-01 11:352816

评论

发布
暂无评论
发现更多内容

[杂谈]大型JSON数据切分(Java Jackson)

alexgaoyh

json elasticsearch Jackson 分割

大数据如何助力营销(1)市场调研

MobTech袤博科技

AntDB数据库体验室上线啦!一站式培训+实操,带您感受“电信级”国产数据库的魅力

亚信AntDB数据库

AntDB AntDB数据库 企业号 5 月 PK 榜

Redis Operator在中原银行实践落地及能力创新

中原银行

redis 云原生 operator redis operator

盘古云课堂加入 PolarDB 开源数据库社区

阿里云数据库开源

polarDB PolarDB-X PolarDB-PG PolarDB for PostgreSQL 阿里云瑶池数据库

腾讯云和ScaleFlux联合推出可计算存储与大容量QLC NAND解决方案

ScaleFlux

腾讯云 数据中心 降本增效 企业级SSD SSD寿命

来了!昇腾MindStudio全流程工具链分论坛精彩回顾,助力高效开发和迁移效率提升

Geek_2d6073

麻了,一个操作把MySQL主从复制整崩了

JAVA旭阳

Java MySQL

软件测试丨Pytest-运行用例、常用参数、执行pytest、异常处理

测试人

软件测试 自动化测试 测试开发 pytest

AI都会写脚本了,传统的运维工程师会失业吗? | 社区征文

wljslmz

AI 运维工程师 三周年征文

从IDC数据库安全报告,看OceanBase安全能力

OceanBase 数据库

数据库 oceanbase

HTTPS 的加密过程及其工作原理

wljslmz

https 三周年连更

理解并实现自动导入(Auto Import)功能的原理

Lee Chen

JavaScript

澳鹏与 Reka AI 强强联合,构建高质量的多模态 LLM 应用

澳鹏Appen

人工智能 数据标注 生成式AI

用LeangooScrum敏捷工具做缺陷管理和迭代规划和迭代执行

顿顿顿

Scrum 敏捷开发 敏捷项目管理 敏捷工具 scrum敏捷工具

体验MMGPT本地部署(上)

IT蜗壳-Tango

三周年连更

Python自动化办公神器!1行代码实现文件转PDF,支持Word、Excel、PPT、TXT格式

程序员晚枫

Python PDF

C++模板和泛型编程详解

小万哥

c++ 程序员 面试 后端 开发

2023 开源之夏|和 Milvus & Towhee 一起玩转 AI、享开源、得奖金

Zilliz

Milvus Zilliz 向量数据库 Towhee 开源之下

类似Redmine,但更好的7款项目管理工具

爱吃小舅的鱼

项目管理 项目管理软件 Redmine

可计算存储是否真的与众不同?

ScaleFlux

压缩数据 计算与存储 固态硬盘

2023-05-10:给你一棵以 root 为根的二叉树和一个 head 为第一个节点的链表 如果在二叉树中,存在一条一直向下的路径 且每个点的数值恰好一一对应以 head 为首的链表中每个节点的值,

福大大架构师每日一题

Go 算法 rust 福大大

在SDN技术盛行的时代,网络工程师需要不断学习新技术跟上时代的步伐 | 社区征文

wljslmz

sdn 三周年征文

云原生应用交付流程安全规范

穿过生命散发芬芳

安全规范 三周年连更

挑战与机遇,全面预算管理的执行计划

智达方通

Flink中的时间及窗口类型

阿泽🧸

flink 三周年连更

中国网约车领域月度观察2023年04月

易观分析

网约车 出行服务

总有AI想害'朕' 失业,我们该何去何从| 社区征文

穿过生命散发芬芳

ChatGPT 三周年征文

通过自定义域名 + SSL 的方式访问 Amazon MQ for RabbitMQ

亚马逊云科技 (Amazon Web Services)

专访惠众科技|元宇宙应用如何借助3DCAT实时云渲染实现流畅大并发呈现?

3DCAT实时渲染

元宇宙 实时渲染云

浅谈如何做好知乎内容营销:需要注意哪些细节

石头IT视角

博睿数据发布新一代统一告警平台OneAlert:多源事件统一接入、海量告警降噪收敛_文化 & 方法_凌敏_InfoQ精选文章