由Comcast开发的开源解决方案Kuberhealthy，通过在Kubernetes集群中执行综合测试来检测Kubernetes问题。Kuberhealthy通过JSON状态页面和Prometheus指标端点报告测试结果，为Kuberhealthy指标提供灵活的告警选项。

通过复制实际Kubernetes工作流，Kuberhealthy尝试识别那些可能会被忽视的生产问题。Kuberhealthy检测到的潜在问题包括：由于CNI通信故障而陷于“Terminating”状态的pod、由于磁盘配置错误而陷于“ContainerCreating”状态的pod，或者重启速度过快的pod。为了识别这类问题，Kuberhealthy并行运行以下检查：

Daemonset部署和终止：该测试把daemonset部署到Kuberhealthy命名空间，等待所有pod达到“Ready”状态，终止这些pod，并确保终止成功。
组件健康状态：检查集群组件状态的现状，如果状态停机超过5分钟就告警。
过多的pod重启：监控一个pod在提供的命名空间是否一小时内重启超过5次，默认为kube系统。
Pod状态：检查那些超过10分钟且不处于“Ready”状态的pod。
DNS：检查集群内外的DNS故障

计划对未来版本进行其他测试，包括：服务配置、DNS解析和磁盘配置。

如果任何一个Kuberhealthy测试发生了错误或故障，那么，错误细节将在http://kuberhealthy.kuberhealthy上报告一个JSON状态页。该状态页面包含一个布尔类型的OK字段（用于指示Kuberhealthy状态），以及一些JSON对象（用于表述每次Kuberhealthy检查的检查细节），其中包括一个列出所有潜在错误描述的错误数组。有关检查的其他信息（如上次检查的运行时间）也可以在检查细节对象中找到。

 {
  "OK": true,
  "Errors": [],
  "CheckDetails": {
    "ComponentStatusChecker": {
      "OK": true,
      "Errors": [],
      "LastRun": "2018-06-21T17:32:16.921733843Z",
      "AuthoritativePod": "kuberhealthy-7cf79bdc86-m78qr"
    },
    "DaemonSetChecker": {
      "OK": true,
      "Errors": [],
      "LastRun": "2018-06-21T17:31:33.845218901Z",
      "AuthoritativePod": "kuberhealthy-7cf79bdc86-m78qr"
    },
    "PodRestartChecker namespace kube-system": {
      "OK": true,
      "Errors": [],
      "LastRun": "2018-06-21T17:31:16.45395092Z",
      "AuthoritativePod": "kuberhealthy-7cf79bdc86-m78qr"
    },
    "PodStatusChecker namespace kube-system": {
      "OK": true,
      "Errors": [],
      "LastRun": "2018-06-21T17:32:16.453911089Z",
      "AuthoritativePod": "kuberhealthy-7cf79bdc86-m78qr"
    }
  },
  "CurrentMaster": "kuberhealthy-7cf79bdc86-m78qr"
}

来自Kuberhealthy README.md的状态页示例

Kuberhealthy可以和Helm或yaml规范文件一起安装，仅在集群中可用。一旦完成安装，Kuberhealthy会运行两个实例，其中包括pod中断预算和滚动更新策略，以确保高可用性。Kuberhealthy提供Prometheus服务监控器配置以和Prometheus告警以及安装Grafana控制面板的模板进行集成。

Comcast开发了Kuberhealthy以满足监控其Kubernetes集群健康状况和稳定性的需要，并和现有监控工具（如Prometheus）进行了集成。通过模拟实际工作负载，Kuberhealthy给Comcast提供了更健壮的Kubernetes监控解决方案。

监控Kubernetes集群健康状况的其他方法包括：Kubernetes工具kubelet，它聚合了pod资源使用状况统计数据，以及cAdvisor，它负责收集CPU、内存、文件系统和网络使用情况统计数据。Grafana提供一个插件以通过Prometheus收集和可视化这些指标。除了Kubernetes工具之外，kube状态指标添加了对Kubernetes API服务器的侦听，收集关于各个对象（如部署、节点和pod）健康状况的指标。与 Kuberhealthy类似，这些指标以明文形式报告给指标端点，该指标端点可以与Prometheus进行集成。

请遵循安装指南或在Kubernetes Slack的Kuberhealthy频道中了解更多信息以开始使用Kuberhealthy。

阅读英文原文：Kuberhealthy: Synthetic Testing for Kubernetes Clusters

创作场景

Kuberhealthy：综合测试 Kubernetes 集群