写点什么

智能运维—你的异常日志告警如何处理?

  • 2020-03-26
  • 本文字数:1898 字

    阅读完需:约 6 分钟

智能运维—你的异常日志告警如何处理?

数字时代,无论金融还是互联网,各行各业都维护着自己 IT 系统,而保障这一套系统平稳、高效运行向来都是一件令人头疼的事。



对于运维工程师而言,通常要管理很多虚拟机或物理机,小则数十,多则上千。这么多机器,任何一台出现问题,如果都要一个个排查,定位是哪一台出现问题,出现了什么问题,那么在手忙脚乱中大半天就过去了。而因为没有实时处理修复,客户的业务很可能被中断,将会造成巨大的经济和名声损失。


对于开发人员而言,程序每次出现问题,都要查看机器上的日志定位问题,看是代码逻辑问题,还是调用 API 失败。因为请求接收是随机的,所以都是依次登录到每一台机器去查看。而如果机器数量上了规模,日志产生又是 TB/天,这是何等的工作量啊!


对于运营同学而言,日常会查看最近的流量如何,如双 12 活动用户点击量和成交量。这些都是市场推广的具体反馈。然而大部分运营都不太懂编程,更别说亲手写一段复杂的程序将众多的日志收集起来进行数据挖掘了。在这种情况下,运营工作起来,毫无市场信息,两眼一黑,不知道路在何方。


上述的现状会导致大家工作低效,常常都疲于解决告警,而无法完成新特性开发,产品竞争力逐渐流失;并且产品推广缺乏有效的反馈机制,工作开展起来也各种掣肘。

为什么会这样?

造成以上现状的的根因,主要有 3 点:缺乏实时监控系统;日志过于分散;数据分析门槛高。


  • 缺乏实时监控系统:在面临成百上千的节点时,运维工程师需要一个端到端的解决方案,将各个节点的运行状态进行汇总,并以图形化的方式实时监控。

  • 日志过于分散:日志存在多个服务器或文件中,分析问题时必须登录到不同服务器查看多个日志文件才能定位问题。当服务器数量一上规模,效率就低得足以让人难受了。

  • 数据分析门槛高:尽管如今市场上各类大数据教程满天飞,但能编程还能掌握这门高深的数据分析技术的运营人员毕竟是少数。

怎么解决这个问题?

为急剧减少疲于奔命的时间,IT 部门需要一套成熟的端到端日志平台解决方案,将运维、研发、运营从繁琐的工作中释放出来


  • 这个日志平台需要将分散在各个服务的日志集中收集起来进行管理

  • 运维能够根据采集来的数据,在这个日志平台的可视化界面进行实时监控。一有什么风吹草动,立即就能感知

  • 研发能够根据采集来的日志,在这个日志平台进行统一的关键词搜索和定位问题

  • 运营能够仅仅通过鼠标点击,无须编程,进行数据分析和图形化展示


而在业内,早已经有了一套十分流行的日志解决方案:ELK(Elasticsearch, Logstash, Kibana),其中:


  • Logstash 负责采集、转换和过滤日志。它支持几乎任何类型的日志,包括系统日志、错误日志和自定义应用程序日志。

  • Elasticsearch 是实时全文搜索和分析引擎,提供搜集、分析、存储数据三大功能。

  • Kibana 是一个基于 Web 的图形界面,用于搜索、分析和可视化存储在 Elasticsearch 指标中的日志数据。


真实案例

某互联网直播平台为保障极佳的用户观看体验,需要在第一时间处理紧急事故,如直播卡顿,或视频无法播放。对于直播场景而言,随着观看人数的剧增,网络的流量和服务器的负荷都会随之猛增,因此出现问题并不是一件少见的事。一旦因为技术原因导致用户长时间无法观看直播,那么用户的流失将会是致命的。


为解决这类问题,该直播平台将应用程序的日志实时采集并进行分析。一旦出现状况,工程师团队都能立即得到告警,并搜索日志中的错误信息,马上进行问题定位和修复。

具体方案如下:


在该解决方案架构中,轻量型采集工具 Filebeat 被部署在各个应用服务器中,收集应用程序的日志,并输出到 Kafka 消息队列中进行缓存。接着 Logstash 读取 Kafka 中的数据并进行解析,将非结构信息转换成结构化信息写入 Elasticsearch 集群中。最后再通过 Kibana 图形化工具,将存在 Elasticsearch 的数据进行相关监控和搜索分析的工作。


通过这套日志解决方案,日志查看时间从分钟级缩短到了秒级,并且该日志平台向所有开发人员提供了统一的日志查看入口,极大地提高了处理告警事件和开发的效率,运维人力减少到原来一半。


而为这套日志解决方案提供核心支撑的正是华为云的云搜索服务。

怎么搭建这套日志解决方案

登录到华为云云搜索服务,试用 Elasticsearch 集群,即可轻松搭建 ELK 日志平台。


云搜索服务是一个基于 Elasticsearch 且完全托管的在线分布式搜索服务,为用户提供结构化、非结构化文本的多条件检索、统计、报表。完全兼容开源 Elasticsearch 软件原生接口。


它可以帮助网站和 APP 搭建搜索框,提升用户寻找资料和视频的体验;还可以搭建日志分析平台,在运维上进行业务日志分析和监控,在运营上进行流量分析等等。


本文转载自华为云产品与解决方案公众号。


原文链接:https://mp.weixin.qq.com/s/gP07ObQBHfSnNrFlgN2SSg


2020-03-26 21:411850

评论

发布
暂无评论
发现更多内容

冲突管理最佳实践

俞凡

管理 最佳实践 沟通

D-Night桌研社北京首店12月30日正式开业,学生和新客特价2.5折起

科技热闻

强大的跟踪和动画软件:Boris FX Mocha Pro 2023破解下载

胖墩儿不胖y

Mac软件 动画软件 Mac好用的软件推荐

什么是爬虫,为什么爬虫会导致服务器负载跑满

德迅云安全杨德俊

Mac值得推荐SSH终端工具mac securecrt-支持M1/M2

Rose

mac软件下载 SecureCRT下载 SecureCRT Mac破解版 ssh终端工具下载 SecureCRT 安装教程

TiDB-Server 常用 API

TiDB 社区干货传送门

管理与运维

1688商品列表数据接口(1688.item_search)丨1688API接口

tbapi

1688API接口 1688商品数据接口 1688商品列表数据接口 关键词搜索1688商品数据

赛迪顾问发布最新中国大数据市场报告,腾讯云稳居领导者行列

腾讯云大数据

大数据

为什么美国服务器是业务国际化的首选?深入探讨其关键优势

一只扑棱蛾子

美国服务器

作为铭文跨链赛道龙头,SoBit 有何突出之处?

西柚子

国产化系统中遇到的视频花屏、卡顿以及延迟问题的记录与总结 | 主赛道

一个 39.3T 的集群从TiDB v3.1.0迁移升级到 TiDB v7.1.2 的实践

TiDB 社区干货传送门

迁移 实践案例 版本升级 大数据场景实践 7.x 实践

【火热报名中】TiDB 社区活动在北京:1月7日(周日)新年围炉茶会,来唠唠嗑,回顾过去一年,展望未来

TiDB 社区干货传送门

传统架构VS云原生:如何更好的选择搭配

膨胀

#技术人的2023总结

英特尔的2023:以强大执行力推进产品、技术创新

E科讯

利用全面预算管理,构建企业数智化管理体系

智达方通

数智化转型 全面预算管理

TiDB Placement Rule实战总结

TiDB 社区干货传送门

实践案例 6.x 实践 大数据场景实践 7.x 实践

一篇文章彻底搞懂TiDB集群各种容量计算方式

TiDB 社区干货传送门

监控 管理与运维 TiDB 源码解读 TiKV 源码解读

恭喜神州数码集团,荣获“TiDB 社区最佳贡献企业”

TiDB 社区干货传送门

TiDB是如何在国有大银行实现数据库业务“一换三”的

TiDB 社区干货传送门

7.x 实践

面试官:说一下MySQL主从复制的原理?

王磊

Java 面试

【行云流水线】满足你对工作流编排的一切幻想~skr

京东科技开发者

基于图神经网络的动态物化视图管理

KaiwuDB

KaiwuDB 物化视图管理

三掌柜的2023年国产AI体验之路

三掌柜

年终总结 2023 2023年 年度

Axure RP授权码 附汉化包下载 兼容M/intel

Rose

Axure RP 9汉化 Axure RP 9授权码 Axure RP 10 汉化版 mac破解软件下载 mac原型设计软件

DePIN:去中心化基础设施的新篇章

TechubNews

区块链 web3 DePIN

智能运维—你的异常日志告警如何处理?_软件工程_华为云产品与解决方案_InfoQ精选文章