如何轻松和安全地构建的满足合规要求的智能产品,实现业务需求?4月26日,告诉你答案! 了解详情
写点什么

华为云门户的六维系统监控(二)

  • 2020 年 1 月 10 日
  • 本文字数:2478 字

    阅读完需:约 8 分钟

华为云门户的六维系统监控(二)

二、博睿

  • 介绍:

  • 博睿网络应用性能监控为第三方监控工具,本工具的优势在于从真实用户角度感知业务应用体验,基于全球监控网络,模拟真实有效的客户现场环境,对指定页面进行监控。工具使用灵活,支持指定监测周期、监测区域、运营商等,从不同维度全面评估网站性能。同时,工具提供了友好的页面进行历史数据查看,包括指标性能趋势、监测散点、瀑布图、分地域、分运营商的统计图等。

  • 监控点:

  • 浏览监控:对指定页面进行主动访问,获取用户体验效果数据等。

  • 事务监控:通过对用户与网站交互行为的脚本录制以及回放,了解交互步骤的瓶颈点,以及相关页面的性能表现。

  • 解决问题:

  • 某个页面突然访问慢时业务侧无感知;业务页面在公司内部访问快,但从公网访问慢;业务页面长时间访问慢,无真实访问数据驱动业务优化;业务侧感知页面访问慢,无法获知从哪个时间点开始变慢。

  • 检测频率:重要页面 5 分钟。

  • 告警阈值:根据不同页面的正常性能表现,支持灵活告警配置


告警方式:邮件、短信。


实战: 2018 年 2 月 14 日 18:35 开始,连续收到多个博睿告警,显示云博客等页面打开慢:



最后人工拨测发现页面性能确实有下降,紧急组织定位,最终发现在该段时间,有用户恶意向系统发送大量请求,导致服务器处理性能下降,联系安全运维人员协助处理后,业务恢复正常。


三、CloudA

  • 介绍:cloudA 服务监控,基于 ICProbeAgent 进行监控数据采集,支持全面的主机性能指标监控,以及对于 cloudSOP 部署的微服务监控,同时还支持自由定制第三方组件的进程监控。对采集的监控数据,提供页面进行趋势展示,以及历史数据查看。对于上报的告警,统一汇聚到 IES 进行展示以及告警通知。

  • 监控点:

  • 主机类:操作系统 CPU、内存、磁盘、网络等多项指标。

  • 数据库:连接数、每秒查询数、慢查询数、每秒选择数/更新数/提交数、数据库使用大小等。

  • 服务类:进程占用 CPU、进程占用物理内存、进程占用虚拟内存、句柄数、线程数等。

  • 解决问题:

  • 服务器资源出现异常无感知;

  • 数据库访问、资源异常无感知;

  • 业务进程异常无感知;

  • 检测频率:每分钟。

  • 告警阈值:根据不同监控项设置不同告警阈值(支持紧急告警、重要告警、一般告警、警告等级别),如:

  • 告警方式:邮件、短信。

  • 实战:2018 年 3 月 2 日 10:53,监控发现用户中心节点物理内存使用超过紧急告警阈值(80%)。



登录主机节点发现,内存占用确实较高,进一步分析发现,用户中心当前 8 个微服务合设,每个微服务都占用了 1G 左右的物理内存,导致整体占用偏高,与 SE 确认,计划修改微服务启动时的物理内存分配,来降低整体内存的消耗。


  • 准确度:CPU 可能会由于业务正常占用而误报,其他资源告警不会误报。


四、EchoTest

  • 介绍:在线测试工具 EchoTest 无缝迁移 API、Web 测试能力至现网,可定时、定频率、多地域的发起自动化用例测试,支持站内告警,站外邮件、短信告警。

  • 监控点:由业务自身梳理出关键特性用例,自动化后在线进行定时拨测。如:

  • 解决问题:业务功能使用异常无感知;用户可能已经找到客服,而业务方对问题还无感知;

  • 检测频率:可配置,最短 5 分钟,当前一级用例(检测业务可用性)为 5 分钟,二级用例(涉及用户交互功能)为 1 小时。

  • 告警阈值:用例执行失败立即告警(用例级)。

  • 告警方式:邮件、短信。

  • 实战:2018 年 02 月 14 日 20:54 收到拨测告警,经过排查确认为一例现网问题,后紧急投入修复,半小时内解决问题。

  • 历史报告:可以从历史报告中看出系统近期的一个整体运行情况。

  • *准确度:可模拟用户的真实行为,直击具体问题,针对性强。需要随版本不断更新执行用例库。用例正确的前提下,不会出现误报。


五、ELK

介绍:ELK 是一个开源实时日志分析平台,由 ElasticSearch、Logstash 和 Kiabana 三个开源工具组成,通过 logstash 在业务节点采集所需的日志,处理、汇聚录入 ElasticSearch,并由 Kiabana 通过 ElasticSearch 提供的接口进行数据查询,最终在 kibana 上进行日志的查看。Kibana 除了日志查看,还提供了视图配置以及看板配置的方式,方便对 ES 中的日志数据进行统计分析以及展示。


  • 监控点:日志中打印的信息,如接口调用次数/成功率、关键错误日志出现次数、关键接口的处理时延等。

  • 解决问题:业务功能正常但存在隐患、系统被频繁调用攻击、业务功能出现异常时业务无感知。

  • 检测频率:支持配置(目前考虑性能,配置为每小时检测一次)。

  • 告警阈值:根据不同监控项设置不同告警阈值(邮件告警阈值和短信告警阈值区分开),如:

  • 告警方式:邮件、短信。

  • 实战: Marketplace 偶现告警,显示查询订单号请求失败:


准确度:和配置相关,配置准确的情况下,不会误报。如果误报,需要逐步完善告警场景。


六、CDN

  • 介绍:统计经过 CDN 的访问情况,使用量以及相关错误等,出现访问问题时,会进行相关告警。

  • 监控点:静态域名命中率和回源成功率。

  • 解决问题:静态资源 CDN 命中率低或者回源成功率低时业务无感知。

  • 检测频率:可配置,最短 5 分钟。

  • 告警阈值:命中率和回源成功率低于某个阈值(可配置),即产生告警。

  • 告警方式:邮件。

  • 实战:2017 年 12 月日收到 CDN 命中率低告警,经过排查为 CDN 某区域网络不稳定,通过给 CDN 提工单,由 CDN 侧排查解决。

  • 准确度:专注于静态资源加载情况进行监控,和 CDN 自身的稳定性存在关联,可能存在误报。


七、总结:

  以上六大监控告警渠道,覆盖了从主机资源、网络、业务进程、关键功能特性、用户体验等各个监控点,不仅解决了系统异常业务不能及时感知的痛点,也为后续系统优化提供了历史监控数据,优化效果亦可通过一个时间段内的数据对比来确认。当前各大监控告警系统虽已对接使用,从历史事件来看也确实起到了关键的监控告警作用,但随着业务的不断成熟,监控告警系统还需要不断的调优,如减少不必要的误报、完善更多的拨测用例、关键特性提高告警敏感度等,整体目标是异常及时发现,缩短业务异常时间,减少对华为云品牌的影响。
复制代码


本文转载自 Think 体验设计公众号。


原文链接:https://mp.weixin.qq.com/s/oZ-VCAXsboTx5cph4oAMVw


2020 年 1 月 10 日 11:51393

评论

发布
暂无评论
发现更多内容

GitHub点击量破百万访问,不愧是被称阿里神作的JDK源码笔记

Sakura

Java 源码 架构 jdk 面试

网课录屏用什么软件好?Camtasia极简操作,课程重点一目了然

淋雨

Camtaisa

四种 AI 技术方案,教你拥有自己的 Avatar 形象

阿里云视频云

人工智能 阿里云 计算机视觉 视频云 元宇宙

百度智能云与雅量商业智能携手,加速零售行业智能化升级

百度开发者中心

百度智能云 零售行业

百度智能云人脸采集SDK通过CFCA权威安全测评

百度开发者中心

安全 sdk

行业白皮书发布!百度智慧城市助力城市“双碳”目标达成

百度开发者中心

人工智能 智慧城市

接口文档工具yapi的安装

小鲍侃java

11月日更

托管页前端异常监控与治理实战

百度Geek说

大前端

顶会VLDB‘22论文解读:CAE-ENSEMBLE算法

华为云开发者社区

算法 时间序列 华为云数据库 深度神经网络

超全整理:程序员都在用什么工具?

华为云开发者社区

程序员 技术 设计 编程语言 开发工具

华为云·核心伙伴开发者训练营——产业云专场在东莞松山湖圆满落幕

华为云开发者社区

华为云 鲁班会

Vue进阶(幺陆肆):自定义指令之拖拽指令

No Silver Bullet

Vue 11月日更

Node.js 17 新特征简介

devpoint

node.js Promise 11月日更

腾讯安全姬生利:云原生环境下的“密码即服务”

腾讯安全云鼎实验室

云原生 加密

你需要知道的 19 个 console 实用调试技巧

CRMEB

CSS JavaScript DOM console crmeb

恒源云(GPUSHARE)_CAN: 借助数据分布提升分类性能

恒源云

深度学习

百度鸿鹄芯片落地首款量产车吉利博越X 智能车机体验惊艳成都车展

百度开发者中心

百度 车联网 鸿鹄芯片

万字长文解密数据异构最佳实践(含完整代码实现)!!

冰河

MySQL 数据库 canal 数据同步 数据异构

“智慧粮仓”守卫中国饭碗

森友小锘

大前端 物联网 可视化

百度Apollo参编首批汽车信息安全国家标准,跻身车联网信息安全第一梯队

百度开发者中心

Apollo

看完这篇SpringBoot让我在阿里成功涨薪40%,感谢

Java 编程 程序员 程序人生 springboot

ReplacingMergeTree:实现Clickhouse数据更新

华为云开发者社区

数据 事务 Clickhouse 数据更新 OLAP数据库

iOS开发-百度一面总结

iOSer

ios 面试 iOS面试 ios开发 百度面试

Github上线仅六天,收获Star超55K+,这套笔记能拿下90%以上面试

Java redis spring 程序员 架构

linux lsquic 编译

糖米唐爹

TDengine在浙商银行微服务监控中的实践

TDengine

tdengine 后端 时序数据库

2022第十五届北京国际智慧城市、物联网、大数据博览会

InfoQ_caf7dbb9aa8a

《个保法》施行 | App 隐私合规检测双十一尝鲜仅需99元

蚂蚁集团移动开发平台 mPaaS

隐私保护 移动开发 监管合规

《黑客之道》kali Linux之NMAP高级使用技巧和漏洞扫描发现

学神来啦

Linux 渗透 kali nmap

极客时间【架构实战营】第二期 模块七作业

Geek_91606e

架构实战营

深入浅出:了解时序数据库InfluxDB

守护石

Influxdb Cassandra 时序数据库 HBase tsdb

华为云门户的六维系统监控(二)_文化 & 方法_Think体验设计_InfoQ精选文章