一个产品从雏形到成熟,业务异常会时不时的出现在这个过程中。业务异常可能不可避免,即使成熟的产品也可能由于互联网的攻击而异常,如果能及时发现异常并快速处理,对业务/用户造成的影响就能降到最低。如果某次异常发生后一两个小时或者更长时间业务侧都没有发现,那这种情况就很可怕了。
一、OpsMonitor
介绍:OpsMonitor 是基于 Zabbix 开发的分布式运维监控系统,公有云统一监控平台。可将通用类主机资源使用情况上报到 IES 统一展示。检测到异常时立即告警。
监控点:主机资源如 CPU、内存、磁盘空间、系统启动时长、用户密码过期检测、进程数量监控、* 网卡状态、网络流量、nginx 进程等。
解决问题:服务器资源状态、进程等异常时业务侧无感知。
检测频率:当前配置 5 分钟。
告警阈值:可根据具体监控项进行配置,如 CPU 空闲率 30%。
告警方式:邮件、短信。
实战:2018 年 2 月 28 日 18:17 收到重要告警邮件,紧急连上服务器确认,告警属实,通过确认为后台管理服务器业务正常同步场景,同步完成后告警解除。
监控图:
本文转载自 Think 体验设计公众号。
原文链接:https://mp.weixin.qq.com/s/oZ-VCAXsboTx5cph4oAMVw
评论