写点什么

改善 Kubernetes 日志以增强可观测性

作者:Prithvish Kovelamudi

  • 2024-07-18
    北京
  • 本文字数:5452 字

    阅读完需:约 18 分钟

改善 Kubernetes 日志以增强可观测性

引言


在微服务和容器化应用程序的时代,有效管理和监控应用程序的健康状况和性能变得至关重要。Kubernetes 是一个开源系统,用于自动化部署、扩展和管理容器化的应用程序,它已经成为企业寻求敏捷性和韧性的首选解决方案。


但是,由于 Kubernetes 的分布式架构、高日志量和动态化等特征,在 Kubernetes 中管理日志仍然是一项重大的挑战。恰当的日志可以提供对应用程序行为的重要洞察力,帮助开发和运维团队快速诊断问题并维持高可靠性。


本文将会探讨在 Kubernetes 中日志管理的高级策略和最佳实践。从高效的日志收集和聚合到富有洞察力的分析技术,我们将会深入研究如何增强可观测性。


通过采用容器原生的日志工具、集中式的日志收集并利用 Kubernetes 原生的特性,你将学会如何简化日志管理流程并获得可操作的知识,从而确保你的应用程序能够顺利运行。


我们深入了解一下在 Kubernetes 环境中实现无缝日志管理的挑战、策略和最佳实践。


理解 Kubernetes 中日志管理的挑战


在深入探讨具体的策略之前,我们先了解一下在 Kubernetes 中日志管理所面临的挑战。了解这些挑战有助于认识计划详尽的日志管理策略的重要性。


Kubernetes 的分布式特征


Kubernetes 采用了分布式的架构,容器会在集群中的多个节点上运行。这种分布式的特征会从容器、Pod、节点和 Kubernetes 控制平面等不同数据源生成日志。从多个位置收集和集中日志可能会很复杂,尤其是在大规模部署的环境中更是如此。设想一下,如果一个错误源于跨多个容器的服务,那么该如何排除故障呢?如果没有集中式的日志,找到相应的容器可能要花费数小时的时间。


日志的数量和生成速度


容器和微服务是轻量级的,会产生大量的日志。动态 Kubernetes 环境中容器的快速创建和销毁进一步加快了日志数据生成速度。大量涌入的日志可能会让传统的日志管理系统不堪重负,从而带来存储、处理和分析方面的挑战。事实上,根据 CNCF 的一项调查,微服务产生的日志数据是单体应用的 10 倍。在具有可自动扩展的动态集群中,数百个容器每天可能会产生数 GB 的日志,所以实时分析至关重要。


日志格式和上下文


容器和微服务通常会以不同的格式生成日志,这给数据的解析和分析带来了困难。此外,由于 Kubernetes 部署动态化的特征,要了解日志的上下文(比如,日志来自哪个容器或 Pod)也很困难。出现问题的 Pod 所生成的日志可能不会直接表明涉及的服务或节点,因此很难找出根本原因。


合规性和安全性


日志通常包含敏感数据或者需要监管的信息。日志管理欠佳可能会导致数据泄露或违背行业标准。在缺乏保障措施的情况下记录个人身份信息(personally identifiable information,PII)可能会导致 GDPR 或 CCPA 数据保护规则的处罚。


在 Kubernetes 中有效收集日志的策略


日志收集是日志管理流程中至关重要的第一步。以下列出了在 Kubernetes 环境中,确保高效、全面收集日志的策略:


拥抱容器原生的日志


由于其动态性和分布式特性,Kubernetes 引入了一系列新的日志需求。我们应该采用专门为该环境设计的容器原生日志工具和框架。这些工具能够理解在 Kubernetes 中记录日志的独特挑战,并提供日志聚合、容器感知日志以及与 Kubernetes 集成的特性。


容器原生日志解决方案的样例包括 Elastic Stack,它包含了用于轻量级数据传输的 Beats 和用于数据处理的 Logstash;Fluentd,它提供了灵活的日志路由,并且支持多个输出目的地;以及 Prometheus,它为度量指标提供了原生支持,并且可以扩展到日志收集。


采用 Sidecar 模式集中收集日志


Sidecar 模式会在每个 Pod 中部署一个日志代理作为 sidecar 容器。该代理从 Pod 的主应用程序容器收集日志,并将日志发送到一个中心化的位置。无论节点或 Pod 位于何处,这种方式都能确保在整个集群中以一致的方式收集日志。


Sidecar 模式通过为所有的日志提供一致的接口,简化了日志的收集,使日志基础设施的管理和扩展都变得更加容易。

利用 Kubernetes 的原生特性


Kubernetes 提供了便于进行日志收集的原生特性,比如:


  • Kubernetes Logs API:Kubernetes API 服务器会暴露在 Pod 中运行的容器的日志。我们能够以编程的方式使用该 API 检索日志,从而实现中心化的收集。

  • Kubelet Logging:在每个节点上运行的 Kubelet 可以进行配置,以便于收集容器日志,并将其发送至本地日志文件或远程日志服务器。

  • 用于集群范围内日志收集的 DaemonSets:使用 DaemonSets 将日志代理部署到集群中的所有节点,从而确保在每个节点收集日志。


通过利用这些原生特性,我们可以简化日志的收集,降低日志基础设施的复杂性。使用原生组件也会最大程度地降低性能方面的开销。


探索云供应商的日志解决方案


如果你的 Kubernetes 集群托管在云平台上,可以探索云供应商所提供的日志解决方案,例如:


  • Amazon Web Services(AWS):AWS 提供了 CloudWatch Logs,这是一项托管服务,可以收集和存储在 AWS 上运行的 Kubernetes 集群的日志。

  • Google Cloud Platform(GCP):GCP 提供了 Stackdriver,这是一个监控和日志平台,能够与 GCP 上运行的 Kubernetes 集群无缝集成。

  • Microsoft Azure:Azure Monitor 为 Azure 上部署的 Kubernetes 集群提供了全面的日志功能。


这些云供应商解决方案提供了无缝集成、简化设置以及一些额外的特性,如日志分析和告警。


有效的日志管理策略


有效的日志管理涉及高效存储、处理和索引日志,以便于快速分析和检索。以下是优化日志管理的一些策略:


实现日志聚合和流式处理


日志聚合涉及到从多个来源收集日志并将其集中到一个位置,通常被称为日志聚合层。这个层可以是一个日志管理平台(如 Elastic Stack),也可以是基于云的日志服务。


通过聚合日志,可以简化管理流程,降低分析来自不同数据源的日志的复杂性。日志流能够确保日志实时转发到聚合层,以便于实现及时分析和告警。


优化日志存储和保存


Kubernetes 中生成的大量日志会迅速消耗存储空间。我们要实现优化日志存储的策略,例如:


  • 日志轮转:定期轮转日志,防止日志文件无限增长。

  • 日志压缩:压缩旧的日志,以减少存储的消耗。

  • 日志归档:将旧日志归档到更便宜的长期存储解决方案中。


除此之外,还应该定义日志的保存策略,根据日志的重要性和监管要求,列出日志应该保留的时间。这可以确保你不会保留不必要的日志,从而降低存储成本并提高日志的搜索性能。


增强日志的搜索和索引


快速搜索和检索相关日志对于高效排除故障非常重要。我们可以通过如下方式增强日志的搜索和索引能力:


  • 为日志添加标签:使用标签对日志进行分类,使其更易于搜索和过滤。

  • 结构化日志:鼓励使用 JSON 或键 - 值对这样的结构化日志格式,以便更容易地解析日志数据并创建索引。

  • 日志索引工具:使用具有高级索引功能的日志管理平台,以加快日志日志搜索的速度。


通过改进日志的搜索和索引,我们可以减少故障的排查时间,更快地了解应用程序的行为。



分布式系统中的日志架构示例


深入分析日志的策略


在 Kubernetes 中分析日志需要提取出有价值的见解,以提高应用程序的性能、识别潜在的问题并确保系统的健康。如下的这些策略有助于高效分析日志:


使用仪表盘可视化日志


通过仪表盘对日志进行可视化,这样能够快速浏览系统的健康状况和性能。创建可显示重要日志指标和趋势的自定义仪表盘,这样可以及时发现异常并识别出问题。


例如,你可以使用 Kibana,它能够为 Elasticsearch 中索引的日志数据提供可自定义的仪表盘。我们可以跟踪错误率、响应时间和资源使用情况。Grafana 则非常适合将日志和其他指标结合起来,提供一个全面的可观测性仪表盘。



日志的可视化 Grafana 仪表盘示例


设置日志告警和监控


积极的日志监控和告警可以帮助我们避免潜在的问题。请根据特定的日志模式或异常情况设置日志告警规则。例如,你可以为关键错误、安全漏洞或日志量的激增配置告警。


将日志管理平台与通知工具(如 Slack 或 PagerDuty)进行集成,以确保在出现关键问题时立即通知正确的团队成员。


执行日志分析


日志分析涉及到深入挖掘日志数据,以发现对系统的见解和趋势。请使用提供高级分析功能(如日志解析、日志查询和基于机器学习的日志分析)的日志管理平台。


例如,你可以针对特定的日志模式或错误进行搜索,从而识别出某个问题的根本原因。机器学习算法能够探测日志数据中的异常情况,有助于将潜在的问题在影响用户之前就识别出来。


为日志添加标签或标记


使用相关的元数据为日志添加标签,以提供更好的上下文并简化过滤。这样能够根据应用程序、容器或严重性条件更快地搜索、过滤和分类日志。利用 Kubernetes 原生的标签或注解实现自动化标记。我们可以根据内部要求(如环境、版本或发布阶段)应用自定义的标签。


日志管理和存储解决方案


收集日志只是第一步。要了解数据流的意义,最好有一个中心化的存储解决方案。这就是像 Elasticsearch 和 Loki 这样强大的日志存储解决方案能够发挥作用的地方了。


  • Elasticsearch 和 Kibana 的强大组合:我们可以将 Elasticsearch 想象为一个巨大、有序的日志仓库。它能够高效地存储和索引数据,从而实现强大的过滤和搜索功能。与可视化工具 Kibana 组合,Elasticsearch 可以将日志转化为富有洞察力的仪表盘和报告。

  • Loki 用于扩展日志存储:如果可扩展性是你比较关注的问题,那么 Loki 可能就是你的救世主。这种可水平扩展的日志存储解决方案专门用于处理来自 Kubernetes 等云原生环境的海量日志数据。


另外,还有托管的日志服务,它们负责整个日志管理的基础设施,为那些喜欢当甩手掌柜的人提供了便捷的可选方案。


Kubernetes 日志管理的最佳实践


遵循如下的最佳实践可以简化 Kubernetes 日志的管理,并确保从数据中获得最大的收益。标准化和集中化:


  • 一致性是关键!在所有的应用程序中统一日志格式,以简化分析和问题排查。此外,争取使用集中式的日志平台,将所有的日志汇总到一个易于访问的位置。

  • 自动化是你的益友:尽可能实现自动化。这包括使用像 Prometheus 这样的工具实现日志收集、解析和分析任务的自动化。让机器来做这些繁重的工作,这样你就可以专注于更高层次的任务了。

  • 安全方面的考量因素:日志通常会包含敏感信息。不要让它们落入坏人的手里!对日志数据要实现适当的访问控制和加密,以确保只有授权用户才能访问这些数据。


案例研究:在 Kubernetes 环境中使用 Elastic Stack 进行高效的日志聚合


公司概况


某家专门从事实时金融交易和服务的中型金融科技公司在管理其基于 Kubernetes 的应用程序的大量日志方面面临重大挑战。其现有的日志管理解决方案难以跟上数据的规模和速度,影响了其有效监控、分析和响应系统行为的能力。


挑战


随着公司的发展,其服务的复杂性和 Kubernetes 集群中微服务的数量也在不断增长。开发和运维团队发现,由于以下原因,跟踪和分析日志变得越来越困难:


  • 各种服务的日志格式不一致。

  • 难以关联应用程序技术栈中不同组成部分的日志。

  • 搜索和检索相关日志数据的延迟较高。

  • 解决方案的实现


该公司实现了流行的日志聚合方案 Elastic Stack 来解决这些挑战。其实现包含如下几个核心组件:


  1. Elasticsearch:用作高可扩展的搜索和分析引擎。

  2. Logstash:用于处理传入的日志,并在存储前充实日志的内容。

  3. Kibana:用于可视化日志并创建实时仪表盘。

  4. Beats:跨 Kubernetes 节点部署的轻量级数据传输器(Filebeat 和 Metricbeat),以收集日志和度量指标。

  5. 部署策略


  • 与 Kubernetes 集成:Filebeat 使用 DaemonSets 进行部署,以确保集群中的每个节点都能将日志转发到 Logstash。

  • 对日志进行充实:配置 Logstash 流水线,利用额外的元数据解析和丰富日志,从而实现更简单直接的关联和分析。

  • 集中化的日志:所有的日志均集中在 Elasticsearch 中,从而实现高效存储、搜索和分析。

  • 实时可观测性:设置了 Kibana 仪表盘,以便实时了解应用程序的性能、错误率和系统健康状况。

  • 结果


Elastic Stack 的实现改变了公司的日志管理能力:


  • 改进了日志关联:增强的元数据使团队能够快速关联各服务的日志,显著缩短了识别和解决问题的时间。

  • 增强了搜索能力:Elasticsearch 的强大搜索功能使团队能够在数秒内对数十亿条日志条目执行复杂的查询。

  • 实时监控和告警:Kibana 仪表盘提供了系统健康状况的全面视图,集成的告警机制会主动通知团队潜在的问题。

  • 可扩展性和灵活性:该解决方案可以轻松地随公司服务的增长而扩展,在处理日志量增加的同时不会降低性能。


结论


掌握 Kubernetes 中的日志管理对于在微服务架构中实现强大的可观测性并维护系统的可靠性至关重要。Kubernetes 具有分布式、高日志量和动态化的特征,这给它带来了独特的挑战。但是,只要采取正确的策略,这些挑战就能转化为获取更深入洞察力的机遇。


通过理解日志管理的复杂性、采用高效的收集策略(如容器原生的日志工具和集中式 sidecar 模式)并充分利用 Kubernetes 的原生功能,我们可以建立一个综合性的基础。有效的日志分析策略(如仪表盘可视化、主动报警和高级分析)能够确保原始的日志数据可以转化为具有可操作性的指南。


结合标签、与其他遥测数据进行关联和合规性等最佳实践,可以确保我们的日志框架与应用程序的增长和性能目标保持一致。无论是排除故障、识别性能瓶颈,还是提供安全性和合规性,战略性的日志管理都能帮助团队优化运维。


优化的日志管理方式可以帮助团队避免潜在的问题,确保应用程序性能平稳,并改善决策。实施这些策略可以提升 Kubernetes 的日志实践,从而实现稳健、可靠和韧性的基础架构。


通过实现本文所述的策略,你就能很好地掌握 Kubernetes 环境中的日志管理,确保系统平稳运行并提高应用程序性能。


原文链接:

https://www.infoq.com/articles/kubernetes-logging-enhanced-observability/

2024-07-18 10:128259

评论

发布
暂无评论

直呼内行!阿里大佬离职带出内网专属“高并发系统设计”学习笔记

编程 程序员 消息队列 高并发系统

Okhttp的缓存机制,原理讲解

android 程序员 移动开发

《黑客之道》干了一夜的kali Linux之Metasploit渗透测试框架的基本使用

学神来啦

Linux 运维 黑客 渗透 Metasploit

Linux编程之权限系统与工具使用(二),一文详解

android 程序员 移动开发

OkHttp 断点上传的“基操”(1),完美讲解内存缓存LruCache实现原理

android 程序员 移动开发

OkHttp3源码详解之拦截器(四),计算机应届毕业生面试题

android 程序员 移动开发

Gartner预测到2025年,将有一半的云数据中心部署具有人工智能功能的机器人

WorkPlus

MVVM系列之二:LiveData,android程序开发教程

android 程序员 移动开发

网易云信亮相 LiveVideoStackCon 2021,解构自研大规模传输网 WE-CAN

网易云信

通信云 传输协议

毕业总结和毕业设计

cherrycheek

springmvc的定时任务

小鲍侃java

11月日更

OkHttp流程分析,音视频编解码技术

android 程序员 移动开发

React Native Android 源码框架浅析(主流程及 Java 与 JS 双边通信)

android 程序员 移动开发

React Native Android混合开发实战教程(1),flutter瀑布流

android 程序员 移动开发

OkHttp 3,安卓移动开发大作业

android 程序员 移动开发

MotionLayout_ 打开动画新世界大门 (part II)(1),kotlin框架

android 程序员 移动开发

OKio源码分析(1)six sy007 情感导师,android面试题2019

android 程序员 移动开发

阿里大佬手写Docker学习笔记就这?也就是让我五体投地的水平罢了

Docker 编程 程序员

Native开发工具之CPU 和架构(三),学习Android开发的步骤,

android 程序员 移动开发

实验室信息系统的主要功能及作用

低代码小观

企业管理 管理系统 LIMS实验室信息管理系统 信息管理系统 实验室

一站式智能化是采购数字化的大趋势

WorkPlus

OOM问题原理解析(二),移动端开发技术

android 程序员 移动开发

MVVM系列之一:Lifecycle,面试竟然被这31道Android基础题难倒了

android 程序员 移动开发

分享 | 一文了解 PG PITR 即时恢复

RadonDB

数据库 postgresql RadonDB

Tapdata 等40余家行业知名企业,应邀参与共建 NextArch Foundation

tapdata

数据库 数据融合

MotionLayout_ 打开动画新世界大门 (part II),android插件化原理

android 程序员 移动开发

Java线程安全ReentrantLock

FunTester

Java 性能测试 线程安全 测试开发 FunTester

「元宇宙」赛道,除了脸书,微软也来了

WorkPlus

OkHttp 断点上传的“基操”,算法题+JVM

android 程序员 移动开发

QQ音乐Android编译提速之路,腾讯T2大牛亲自讲解

android 程序员 移动开发

🔥 DeepVideo 智能视频生产训练营火热报名中!

阿里云视频云

阿里云 媒体处理 智能视频 智能生产 视频云

改善 Kubernetes 日志以增强可观测性_云原生_InfoQ精选文章