InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

运维可视化,漫谈网络监控可视化

  • 2019-09-11
  • 本文字数:1525 字

    阅读完需:约 5 分钟

运维可视化,漫谈网络监控可视化

运维可视化,核心是将所运维的服务、资源、设备的状态和正在发生的事件通过可视化的手段呈现出来,指导运维人员或者产品研发人员做出正确的运维决策。某种程度上,运维与可视化相辅相成,可视化程度越高,运维就越简单,运维效率也就越高。


在运维的工作范畴中,实时监控对故障的发现和诊断起到至关重要的作用。今天,我们以监控中的一个重点场景-内网监控,来介绍可视化起到的重要作用。内网指的是一个公司的内部网络,包括机房内部网络和机房间的网络。

异常事件可视化

当运维工程师发现自己负责的系统出现故障时,检查网络连接是否有异常,是故障排查流程当中的标准步骤。在这个场景中,工程师需要知道自己的系统所在的机房以及所依赖的网络通路是否存在故障,所以希望内网监控系统提供一个网络故障概览,展示在给定的时间段中相关机房的异常事件。



最简单的方式是将所有的网络故障展示在表格当中。如上表所示,每一行代表一个故障事件,第一列表示故障关联的机房,第二列是故障的起止时间,第三列是故障的严重程度。这种展现方式存在以下三个问题:


1.不能第一眼看出哪些故障严重,哪些故障轻微;


2.不能直观感受到每个故障的持续时长;


3.很难知道在某一时刻哪几个机房同时存在故障。


当时间段很长,筛选出的故障事件很多时,表格会变得很长,就更加不利于工程师了解网络状况了。


为解决以上问题,我们需要在机房、时间、 程度三个维度上都能直观的展示故障事件。从时间跨度来想,有点事件流的感觉,似乎可以用事件流图来展示。



图 1 事件流图


如图 1 所示,事件流图用一条事件河流来表示事件。河流被横向切分为若干条色带,每条色带代表一个类别的事件。色带的高度(河流的宽度)代表在某个时刻,各类别包含事件的个数。事件越多,河流越宽,反之越窄。


这种事件流图适合展示在一段时间内事件群体的统计变化,而我们需要能够展示每个事件的个体信息。因此,我们对事件流图作了几个修改:


1.每个故障事件用一个矩形条表示,矩形条左右两边的位置对应事件的起止时间;


2.矩形条的颜色用来区分事件的严重程度,而不是事件的类别;


3.关联到某一个机房的故障事件矩形条放在河流的同一个高度位置。如果事件在时间上能完全错开,则将矩形条左右放置。如果事件在时间上有重叠,则拓宽机房所占河流的宽度,将矩形条上下放置。



图 2 异常事件流图


图 2 展示了我们的事件流图方案。图中展示了三个机房的异常,其中机房一有一个严重的异常事件(用红色来标识),这个异常事件是一个时间跨度比较长的严重异常事件,机房二有 4 个轻度的异常事件(用黄色标识),这 4 个异常是时间跨度比较短的轻度异常事件,机房三有 12 个轻度的异常事件(用黄色标识),这 12 个异常事件中也有三个时间跨度比较长的时间。如果鼠标放置在异常事件矩形块上,能查看哪个机房出现异常。通过这个图,工程师可以很方便地看到每个机房的每个故障事件的详细信息,比表格的方式直观得多。

总结

事件流图, 从机房、时间、异常程度三个维度都能直观的展示故障事件,帮助工程师快速查看异常情况。其实,事件流图还可以用于展示变更事件,甚至可以将变更事件与异常事件组合,让工程师能一眼查看异常事件可能是由哪些变更事件引起的。我们从智能运维场景中抽象出一些可视化组件,比如这里的事件流图组件,再通过前端工程化工具把这些子元素串联起来,构建出前端统一展现层框架, 后面我们会逐一介绍这些可视化组件与框架其他细节,请持续关注我们的 AIOps 智能运维公众号!


作者介绍:


莫莫,百度资深前端研发工程师,负责百度智能运维(Noah)相关产品的前端设计和研发,在运维数据可视化方向有着丰富的实践经验。


本文转载自公众号 AIOps 智能运维(ID:AI_Ops)。


原文链接:


https://mp.weixin.qq.com/s/iBdrukg6-0bH_AAnNK48hA


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2019-09-11 23:161492

评论

发布
暂无评论
发现更多内容

阿里巴巴监管控一体化运维|阿里巴巴DevOps实践指南

阿里云云效

云计算 阿里云 运维 云原生 研发

开源,从一个轮子说起|趣说开源

腾源会

开源 腾源会

为什么要学习togaf的不完全分析

spark

企业架构 架构师 TOGAF 软件架构师

Antd多文件上传后台接收为null问题

CRMEB

如何解决海量数据更新场景下的Mysql死锁问题

领创集团Advance Intelligence Group

MySQL

java培训:22道springboot高频面试题

@零度

JAVA开发 springboot

WMS仓储管理系统解决方案

源字节1号

开源 前端开发 后端开发 WMS仓库管理

书单 | 云端架构怎么设计才好?这几本书告诉你!

博文视点Broadview

两行代码助你搞定SAST(静态应用程序安全测试)

极狐GitLab

gitlab security

JavaScript 基础(三):数组和对象

devpoint

JavaScript 数组 对象 3月月更

创建索引源码学习

liang1993

elasticsearch

大数据培训:Spark性能调优与参数配置

@零度

大数据 spark

Spring Cloud Ribbon 中的 7 种负载均衡策略

王磊

SpringCloud

Java面向对象知识点拆分(二)

逆锋起笔

java面试 javase 3月月更 Java面试题

从0到1万字贴心讲解单体架构到分布式架构的演变(第一篇)

刘祥

后端 分布式,

【Go实现】实践GoF的23种设计模式:SOLID原则

元闰子

Go 设计模式 SOLID原则

吾日三省吾身

xujiangniao

电影图书电视剧

xujiangniao

反射解析与使用

Puciu

《重学Java设计模式》作者开始录视频了!

小傅哥

设计模式 小傅哥 视频学习

【高并发】不得不说的线程池与ThreadPoolExecutor类浅析

冰河

并发编程 多线程 高并发 线程池 异步编程

阿里巴巴基于应用和变更的交付模式|阿里巴巴DevOps实践指南

阿里云云效

云计算 阿里巴巴 阿里云 持续交付 研发

2022-03微软漏洞通告

火绒安全

漏洞 漏洞修复 远程代码执行

web前端培训:react的多环境灵活配置

@零度

前端开发 React

面向流批一体的 Flink Runtime 新进展

Apache Flink

大数据 flink 开源 编程 实时计算

2021年第4季度记账理财应用监测,头部集聚加强,领跑者转型发展

易观分析

理财 记账

汽车之家基于 Flink 的实时计算平台 3.0 建设实践

Apache Flink

大数据 flink 开源 编程 实时计算

Flink CDC 项目 GitHub star 破 2000,新增 Maintainer 成员

Apache Flink

大数据 flink 开源 编程 实时计算

在 Flutter 中使用 NavigationRail 和 BottomNavigationBar

坚果

3月日更 flutter for web

银行卡信息精准识别-智能快速绑卡

DS小龙哥

3月月更

程序员大学四年有对象和没对象的区别,对你工作有什么影响

刘祥

  • 扫码添加小助手
    领取最新资料包
运维可视化,漫谈网络监控可视化_软件工程_莫莫_InfoQ精选文章