Chaos Mesh 1.0于2020年7月成为CNCF沙箱项目，随后，Chaos Mesh团队宣布了其通用可用性(GA)。Chaos Mesh是一个用于在Kubernetes应用程序上进行混沌工程实验的工具。

Chaos Mesh使用标准的CDR进行对象定义，还提供了一个用于管理和监控混沌工程实验的仪表盘。仪表盘可用于“定义混沌实验的范围、指定混沌注入的类型、定义调度规则，并观察混沌实验的结果”。Chaos Mesh还提供了一个Grafana插件，可以查看混沌工程实验的实时指标。这个工具涵盖了“Pod、网络、系统I/O和内核”的故障注入。

InfoQ采访了Chaos Mesh的维护者和全职开发人员Keao Yang，了解更多的信息。

混沌实验可以在Chaos Mesh中使用YAML来指定。可以注入的故障类型包括Pod故障、网络分区故障、虚拟内存压力源、通过系统调用修改系统时间以及I/O延迟。Chaos Mesh还可以用于模拟跨多个数据中心的网络延迟。Chaos Mesh主要包含了两个运行组件——一个中央控制器管理器和一个DaemonSet，它在每个节点上运行一个Pod，作为代理。为了限制测试中受影响的应用程序，并防止混沌实验影响关键应用程序，它提供了名称空间级别的权限和受保护的名称空间。

图像来源：https://raw.githubusercontent.com/chaos-mesh/chaos-mesh/master/static/chaos-mesh.svg

Chaos Mesh是从一个针对分布式数据库TiDB的测试框架发展而来的。Yang解释说：“我们相信我们以前的经验(关于TiDB测试)不仅让TiDB更加稳定，这也是我们创建Chaos Mesh的原因。Chaos Mesh生来就是通用的，被设计成可以在任何一个云平台上运行，也可以用来测试云端的任何一个软件。”

Yang说，Chaos Mesh不依赖特定的云特性。它“只使用了Kubernetes API和Linux内核的基本功能”，并补充道：

根据用户的报告，Chaos Mesh可以很自然地在裸机集群和大多数云平台上运行。但是，对于一些云平台(如OpenShift)，需要特殊的特权设置。我们正在编写文档来记录这些配置。

在回答Chaos Mesh如何在内部注入故障时，Yang解释说：

具体实现取决于“故障”类型。有一些很简单，例如，Chaos Mesh使用Kubernetes API来杀死Pod并实现PodChaos。对于其他一些类型的故障，Chaos Mesh会向相关节点上的守护进程发送grpc请求，守护进程会进入相应的network/pid/mnt/…命名空间和cgroup，并运行一些命令(如iptables)来注入故障。

此外，Yang还说，“在运行时注入故障和限制混沌的范围可能是一个挑战。例如，在Linux 5.6之前没有时间名称空间这样的东西，而且每个进程都共享同一个时钟。对于这种混沌，实现并不是那么简单，而且真的很难用一句话说清楚”。另一篇文章描述了TimeChaos的实现——它模拟时钟偏差。

关于Chaos Mesh的近期路线图，Yang说：

我们正试图将Chaos Mesh扩展为一个“平台”，这意味着它有望能够编排混沌实验，定义复杂的混沌场景，并为混沌生成报告。另一个重要的特性是支持仪表盘的访问控制。

Kubernetes上的其他混沌工程框架有Litmus、Gremlin和KubeInvaders。在写这篇文章时，Chaos Mesh需要Kubernetes v 1.12或更高版本，可以使用提供的shell脚本或Helm Chart来安装。Chaos Mesh的源代码可以在GitHub上找到。

原文链接：

Chaos Engineering on Kubernetes : Chaos Mesh Generally Available with v1.0

创作场景

Kubernetes 上的混沌工程：Chaos Mesh 1.0 GA 发布