写点什么

Elasticsearch 运维宝典——监控实战篇

2019 年 8 月 09 日

Elasticsearch运维宝典——监控实战篇

监控,是服务可用性保障的关键之一。本文从运维角度,对 ES 服务监控进行了系统性总结,涵盖监控工具选型、监控采集项筛选介绍,最后列举了几个借助监控发现的 ES 线上问题。


ES 监控概览


针对 ES 进行监控,主要期望解决这几种场景:


  • ES 日常服务巡检,帮助运维开发人员及时发现隐患

  • ES 服务异常后,帮助运维开发人员及时发现故障

  • 采集的 ES 监控指标,帮助运维开发人员迅速定位问题根因

  • 能够及时发现 ES 服务异常,这是最主要目标。


监控工具选型


借助运维工具,在 ES 实际运维工作中能极大提升运维开发人员的工作效率。目前 ES 可用的监控工具或插件很多,对多种监控工具进行评测分析后,我们最终的监控工具选型为:


X-Pack+kibana


索引信息、集群整体信息很有帮助,尤其是各索引的索引、搜索速率,索引延迟数据等。其中,X-Pack 是官方给出的插件(Monitoring 为开放特性),需要注意的是,ES 集群上线前就需要安装 X-Pack 插件。图一展现了在 Kibana 中,Monitoring 部分功能。



图一 Monitoring 部分功能


Jmxtrans-ES+influxdb


主要进行核心数据采集、监控。ES 本身提供的 jmx 信息有限,这里使用了 Jmxtrans-ES(自研)工具,通过 http 接口获取信息后,写入到 influxdb。ES 与 influxdb 的结合,官方给出的方案是读取 X-Pack 中的索引信息,考虑到 X-pack 索引是存储在 ES,保留时间有限,以及与京东云内部监控系统的对接,我们自研了 Jmxtrans-ES 工具进行核心信息采集,也自研了 ES-Monitor 功能监控工具,仪表盘通过 Grafana 进行展现。图二展现了 ES 集群部分核心数据。



图二 ES 集群部分核心数据


Elasticsearch-HQ


这款工具属于清新风格。之前使用的 head 插件,在集群规模达到一定程度后,head 插件信息展现不理想,因此使用了 HQ 代替 head 部分功能。如果很难记住管理 API,可以借助 ES-command 工具。图三展现了 ElasticHQ 管理界面。



图三 ElasticHQ 管理界面


告警对接京东云内部告警平台。


采集项筛选


实战中,ES 集群部署使用 5.x 版本,区分协调(coordinating)、摄取(ingest)、主(master)、数据(data)等节点,独立部署,数据节点机器异构。


按照 SRE 黑盒监控和白盒监控进行分类:


黑盒监控


  • 集群功能


索引创建、删除、文档写入、查询等基本功能。实际监控中,创建索引时,需要控制好频率以及分片的分配情况。实战中,由于索引创建频率较高,并且分片数量设置不合理,导致集群 pending 任务堆积,导致正常业务创建索引出现大量延迟或失败。


  • 集群整体状态


理论上,集群正常状态为 green,出现 red 时,集群肯定存在部分索引主备分片全部丢失情况。集群状态为 yellow 时,也不能完全代表集群没有问题。比如,创建索引时,如果分片没有完全分配完成,也会出现 yellow 状态。因此,集群出现 yellow 时,也需要重点关注或排查集群可能存在的问题。


  • 活跃分片数百分比

  • Pending 任务数


Pending 任务数 99%时间均为 0,如果出现长时间为非 0 情况,集群肯定出现了异常。


白盒监控


1)容量


作为存储组件,对于存储容量的监控至关重要。


  • 总存储空间:ES 本身没有提供此方面监控数据,需要自行进行计算。

  • 已用存储空间:总存储空间是不能全部使用完,需要预留一部分空间。

  • 最大分区使用:在 ES 中,如果某数据节点单块数据目录使用率超过 90%(默认值,可以通过 cluster.routing.allocation.disk.watermark 相关配置来调整),则会进行分片数据迁移。因此,在数据盘存在异构的集群中,为避免分片迁移,监控此值,至关重要。

  • 机器(或实例)资源(CPU、Load、Disk、JVM)

  • 分片数量:最好不超过一万个分片。官方推荐,单个实例 JVM 内存不超过 30GB,不超过 600 个分片。另外,分片是由 Master 来维护其状态的,而 Master 在任何集群规模下,有且仅有一个节点在工作,其余均为候选主节点,因此分片数量越高,Master 常态的压力越大,故障后恢复的耗时也越长。合理的分片数量与集群节点数、写入数据量、磁盘读写性能等存在一定关系,具体可以参考官方说明。

  • 线程池队列长度


2)流量


  • 索引、搜索速率:需要监控总量,但是需要采集主要 index 的数据,便于问题定位。例如哪个索引突增流量将集群压垮了?如果没有细化的 index 的相关数据采集,就只能通过 index 的体积来进行间接判断,延时也类似。

  • 集群网络 IO

  • 集群数据节点 IO:实际部署中,会区分摄取(ingest)、主(master)、数据(data)等节点,这里重点监控数据节点 IO。


3)延迟


  • 索引、搜索延迟

  • 慢查询


4)错误


  • 集群异常节点数

  • 索引、搜索拒绝数量

  • 主节点错误日志


借助监控发现的问题


场景 1:


如果 Elasticsearch 集群出现问题,通过 ES 接口获取到的监控数据可能出现响应超时,无法响应情况,造成监控工具不可用。


发现方式:功能监控响应超时告警


优化建议:1)避免该场景出现:需要在日常巡检排查中,发现集群隐患,优化集群配置项,消除隐患;2)如果出现此问题:那么针对各实例的存活性,错误日志监控不可缺失,通过此监控信息快速定位。


场景 2:


如果某数据节点任何一个数据目录不可用(比如磁盘故障,其他应用占满数据目录)则新建索引若有分片分配到上面之后,则会出现创建索引失败。


发现方式:功能监控告警、pending 任务堆积告警


优化建议:为避免此问题出现,数据盘可以做 raid5 或 raid10,避免多个服务共用同一数据目录等。当然数据目录的可用性,也需要有方法能够知道。


场景 3:


某索引因程序问题,出现大量创建 type,导致集群异常。


发现方式:pending 任务堆积告警,之后排查各索引写入速率,找到异常索引


优化建议:定期排查重点索引的数据写入合理性,以及服务巡检。


附录:


涉及的部分开源软件,GitHub 地址


ElasticHQ:https://github.com/ElasticHQ/elasticsearch-HQ


部分运维脚本,GitHub 地址


Elasticsearch Monitor:https://github.com/cloud-op/monitor


文章转载自微信公众号京东云。


2019 年 8 月 09 日 09:559207

评论 1 条评论

发布
用户头像
监控系列文章来了,这一篇是Elasticsearch的监控介绍,未来会有Kafka、Zookeeper等监控介绍,大家如果还想看什么样的监控解决方案,欢迎积极留言哈,也许我们的下一篇文章就是你所需要的。
2019 年 08 月 09 日 10:23
回复
没有更多了
发现更多内容

八、性能二

Geek_28b526

第三周 代码重构 作业 「架构师训练营 3 期」

feiyun123

极客大学架构师训练营

架构师训练营 -week12-作业

大刘

极客大学架构师训练营

测开入门篇《环境管理、编码规范、项目结构》

清菡

测试开发

大数据1第十二周作业「架构师训练营第 1 期」

天天向善

第十二周 数据应用1 总结

三板斧

极客大学架构师训练营

第三周作业

Geek_b9053c

Prometheus TSDB(Part 1):头块

_why先生

Prometheus tsdb

架构入门感悟之八

莫问

第三周 学习总结 代码重构

简简单单

volcano使用必知: 从vcjob创建到pod运行

托内多

Volcano

架构师训练营第12周课后练习

脸不大

大数据

架构师训练营第八周作业1

韩儿

架构师训练营 1 期 - 第十二周 - 数据应用1

三板斧

极客大学架构师训练营

12周作业

橘子皮嚼着不脆

别费心了,K8s根本甩不掉Docker

亨利笔记

Docker 云原生 k8s Harbor image

第十二周作业

alpha

极客大学架构师训练营

架构师训练营第十二周课后作业

Gosling

极客大学架构师训练营

怒肝一夜,写了这篇mybatis源码阅读篇

田维常

mybatis

第十二周总结

alpha

极客大学架构师训练营

02-week3-homework

J

极客大学架构师训练营

谈谈 MySQL 锁

郭儿的跋涉

MySQL 数据库 锁机制

第三周作业

简简单单

架构师训练营第十二周学习总结

Gosling

极客大学架构师训练营

搞定MySQL安装难安装贵问题

MySQL从删库到跑路

MySQL 安装 Windows 10

前端不得不懂的架构知识(中)

执鸢者

架构 前端

Prometheus backfilling 功速体验

_why先生

Prometheus tsdb

架构师训练营第八周作业2

韩儿

架构师训练营 - 第十二周 - 作业一

行者

Java并发编程:并发中死锁的形成条件及处理

码农架构

Java并发

LeetCode题解:433. 最小基因变化,DFS,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

NLP领域的2020年大事记及2021展望

NLP领域的2020年大事记及2021展望

Elasticsearch运维宝典——监控实战篇-InfoQ