二、博睿
介绍:
博睿网络应用性能监控为第三方监控工具,本工具的优势在于从真实用户角度感知业务应用体验,基于全球监控网络,模拟真实有效的客户现场环境,对指定页面进行监控。工具使用灵活,支持指定监测周期、监测区域、运营商等,从不同维度全面评估网站性能。同时,工具提供了友好的页面进行历史数据查看,包括指标性能趋势、监测散点、瀑布图、分地域、分运营商的统计图等。
监控点:
浏览监控:对指定页面进行主动访问,获取用户体验效果数据等。
事务监控:通过对用户与网站交互行为的脚本录制以及回放,了解交互步骤的瓶颈点,以及相关页面的性能表现。
解决问题:
某个页面突然访问慢时业务侧无感知;业务页面在公司内部访问快,但从公网访问慢;业务页面长时间访问慢,无真实访问数据驱动业务优化;业务侧感知页面访问慢,无法获知从哪个时间点开始变慢。
检测频率:重要页面 5 分钟。
告警阈值:根据不同页面的正常性能表现,支持灵活告警配置
告警方式:邮件、短信。
实战: 2018 年 2 月 14 日 18:35 开始,连续收到多个博睿告警,显示云博客等页面打开慢:
最后人工拨测发现页面性能确实有下降,紧急组织定位,最终发现在该段时间,有用户恶意向系统发送大量请求,导致服务器处理性能下降,联系安全运维人员协助处理后,业务恢复正常。
三、CloudA
介绍:cloudA 服务监控,基于 ICProbeAgent 进行监控数据采集,支持全面的主机性能指标监控,以及对于 cloudSOP 部署的微服务监控,同时还支持自由定制第三方组件的进程监控。对采集的监控数据,提供页面进行趋势展示,以及历史数据查看。对于上报的告警,统一汇聚到 IES 进行展示以及告警通知。
监控点:
主机类:操作系统 CPU、内存、磁盘、网络等多项指标。
数据库:连接数、每秒查询数、慢查询数、每秒选择数/更新数/提交数、数据库使用大小等。
服务类:进程占用 CPU、进程占用物理内存、进程占用虚拟内存、句柄数、线程数等。
解决问题:
服务器资源出现异常无感知;
数据库访问、资源异常无感知;
业务进程异常无感知;
检测频率:每分钟。
告警阈值:根据不同监控项设置不同告警阈值(支持紧急告警、重要告警、一般告警、警告等级别),如:
告警方式:邮件、短信。
实战:2018 年 3 月 2 日 10:53,监控发现用户中心节点物理内存使用超过紧急告警阈值(80%)。
登录主机节点发现,内存占用确实较高,进一步分析发现,用户中心当前 8 个微服务合设,每个微服务都占用了 1G 左右的物理内存,导致整体占用偏高,与 SE 确认,计划修改微服务启动时的物理内存分配,来降低整体内存的消耗。
准确度:CPU 可能会由于业务正常占用而误报,其他资源告警不会误报。
四、EchoTest
介绍:在线测试工具 EchoTest 无缝迁移 API、Web 测试能力至现网,可定时、定频率、多地域的发起自动化用例测试,支持站内告警,站外邮件、短信告警。
监控点:由业务自身梳理出关键特性用例,自动化后在线进行定时拨测。如:
解决问题:业务功能使用异常无感知;用户可能已经找到客服,而业务方对问题还无感知;
检测频率:可配置,最短 5 分钟,当前一级用例(检测业务可用性)为 5 分钟,二级用例(涉及用户交互功能)为 1 小时。
告警阈值:用例执行失败立即告警(用例级)。
告警方式:邮件、短信。
实战:2018 年 02 月 14 日 20:54 收到拨测告警,经过排查确认为一例现网问题,后紧急投入修复,半小时内解决问题。
历史报告:可以从历史报告中看出系统近期的一个整体运行情况。
*准确度:可模拟用户的真实行为,直击具体问题,针对性强。需要随版本不断更新执行用例库。用例正确的前提下,不会出现误报。
五、ELK
介绍:ELK 是一个开源实时日志分析平台,由 ElasticSearch、Logstash 和 Kiabana 三个开源工具组成,通过 logstash 在业务节点采集所需的日志,处理、汇聚录入 ElasticSearch,并由 Kiabana 通过 ElasticSearch 提供的接口进行数据查询,最终在 kibana 上进行日志的查看。Kibana 除了日志查看,还提供了视图配置以及看板配置的方式,方便对 ES 中的日志数据进行统计分析以及展示。
监控点:日志中打印的信息,如接口调用次数/成功率、关键错误日志出现次数、关键接口的处理时延等。
解决问题:业务功能正常但存在隐患、系统被频繁调用攻击、业务功能出现异常时业务无感知。
检测频率:支持配置(目前考虑性能,配置为每小时检测一次)。
告警阈值:根据不同监控项设置不同告警阈值(邮件告警阈值和短信告警阈值区分开),如:
告警方式:邮件、短信。
实战: Marketplace 偶现告警,显示查询订单号请求失败:
准确度:和配置相关,配置准确的情况下,不会误报。如果误报,需要逐步完善告警场景。
六、CDN
介绍:统计经过 CDN 的访问情况,使用量以及相关错误等,出现访问问题时,会进行相关告警。
监控点:静态域名命中率和回源成功率。
解决问题:静态资源 CDN 命中率低或者回源成功率低时业务无感知。
检测频率:可配置,最短 5 分钟。
告警阈值:命中率和回源成功率低于某个阈值(可配置),即产生告警。
告警方式:邮件。
实战:2017 年 12 月日收到 CDN 命中率低告警,经过排查为 CDN 某区域网络不稳定,通过给 CDN 提工单,由 CDN 侧排查解决。
准确度:专注于静态资源加载情况进行监控,和 CDN 自身的稳定性存在关联,可能存在误报。
七、总结:
本文转载自 Think 体验设计公众号。
原文链接:https://mp.weixin.qq.com/s/oZ-VCAXsboTx5cph4oAMVw
评论