写点什么

我们将 Helm 用至极限,然后创建了一个 Kubernetes Operator

Jeff Carpenter & John Sanda

  • 2022-01-15
  • 本文字数:3940 字

    阅读完需:约 13 分钟

我们将Helm用至极限,然后创建了一个Kubernetes Operator

K8ssandra是 Apache Cassandra®在 Kubernetes 上的一个发行版,由多个开源组件构建而成。从一开始直到最近的K8ssandra 1.3版本,K8ssandra 一直使用 Helm 图表进行安装和管理。虽然该项目的某些组件使用了 Kubernetes Operators——包括 Cassandra(cass-operator)和 Medusa(medusa-operator),但还没有一个 Operator 对所有组件进行整体管理。


K8ssandra 团队最近完成了一个我们讨论了几个月的决定:为 K8ssandra 项目创建一个 Operator。在本文中,我们介绍了我们使用 Helm 的经验,我们为 K8ssandra 创建 Operator 的决定,以及我们希望这将为项目带来的好处。



背景

K8ssandra 的核心是cass-operator,我们使用它来部署 Cassandra 节点。我们围绕它添加了一系列组件,组成一个生态系统,用于在 Kubernetes 中有效地运行 Cassandra。这些组件包括用于管理反熵修复(Reaper)和备份(Medusa)的操作工具。我们引入了用于指标收集和报告的 Prometheus/Grafana 技术栈。Stargate 则是一个数据网关,通过 REST、GraphQL 和 Document API 提供了对 Cassandra 更灵活的访问。


一开始,我们使用 Helm 来帮助管理这些组件的安装和配置。这使我们能够快速启动项目并开始组建社区。最初对该项目感兴趣的人主要是 Cassandra 社区的开发人员,他们不一定有很多 Kubernetes 的专业知识和经验。他们中的许多人发现掌握像 Helm 这样的包管理工具和安装程序比掌握 Operator 和 CRD(定制资源定义)更容易。这并不是说 Helm 是为“不太了解 Kubernetes 的人”准备的,因为 Kubernetes 生态的很大一部分都在使用 Helm。


进展:Helm 的优缺点


随着项目的发展,我们开始在 Helm 上遇到一些限制。虽然正确安装 K8ssandra 集群非常简单,但我们在升级和管理集群时遇到了比较多的问题。

编写复杂的逻辑


Helm 通过循环和 if 语句很好地支持控制流。然而,当嵌套层次比较多时,整个代码就很难理解和阅读,而且缩进也成为一个问题。特别是,我们发现对修改后的 Helm 图表进行同行评审变得相当困难。

重用和可扩展性


Helm 变量的作用范围被限制在声明它们的模板内。例如,我们在 Cassandra 数据中心模板中定义了一个变量,在 Stargate 模板中不可能重用它,我们必须在 Stargate 模板中重新创建相同的变量。这使得我们的代码很难保持DRY原则,我们发现这是缺陷的来源。


类似地,Helm 有一个很好很大的帮助模板函数库,但是这个库并没有涵盖所有用例,并且没有接口来定义您自己的函数。您可以定义自己的模板,模板可以被大量重用,但它们不能代替函数。

项目结构和继承


伞形图设计模式是 Helm 的最佳实践,但我们在尝试实现该模式时也遇到了困难。我们能够创建一个顶级 K8ssandra Helm 图表,其中包含 Cassandra 和 Prometheus 的子图表,但当我们试图为 Reaper 和 Stargate 创建额外的子图表时,却遇到了变量作用范围的问题。我们的目的是仅仅在顶级图表定义身份验证设置,这样它们不仅可以应用于 Cassandra,还可以应用于 Stargate 和 Reaper。Helm 的继承模型不支持这种将变量向下推到子图表的概念。

定制资源定义(CRD)管理


Helm 可以创建 Kubernetes 的定制资源定义(CRD),但不能管理它们。我们知道这是 Helm 开发者为 Helm 3 做出的深思熟虑的设计选择。由于定制资源的定义是集群范围的,如果多个 Helm 安装过程试图在不同版本的 CRD 上工作可能会带来一些混乱。然而,这给我们带来了一些困难。为了管理资源的更新——比如 Helm 内部的 Cassandra 数据中心,我们必须实现一个变通方案。我们实现了定制的 Kubernetes job,并将它们标记为升级前的钩子(Hook),这样 Helm 就可以在升级时执行它们。每个 job 都用 Go 语言编写,并打包成一个镜像。这本质上就像编写迷你控制器,并且在某种程度上开始感觉像编写 Operator。

临界点:多集群部署


虽然我们已经能够通过 1.3 版本解决这些 Helm 的问题,但我们路线图上的下一个主要特性是实现多集群 K8ssandra 部署(跨越多个 Kubernetes 集群的 K8ssandra/Cassandra 集群)。我们意识到,即使没有复杂的网络配置,我们也无法使用 Helm 有效实现这一步。

设定新方向


最后,我们意识到我们让 Helm 做得太多了。很容易陷入这样的情况:您学会了如何使用锤子,所有东西看起来都像钉子,但您真正需要的是螺丝刀。


结果,我们发现我们与Operator框架的创建者有一些共同点,他们已经为 Operator 定义了一个功能模型,我们将其展示在这里:



如图所示,Helm 最适合 Operator 前两个级别的功能,侧重于简单的安装和升级。执行更复杂的操作如故障处理和恢复、自动伸缩,以及更复杂的安装和升级应该用诸如 Ansible 或 Go 之类的编程语言来实现,而不是使用像 Helm 这样的模板语言。

构建一个 Operator:K8ssandra 2.0


基于这一分析,团队决定开始构建一个 Operator,我们将其称之为 K8ssandra 2.x 系列版本。2.0 版本的首要任务是移植我们在 Helm 图表中已有的功能,确保 Operator 具有相同的特性,并在其中增加多集群支持。我们仍然打算解决 1.x 版本中的 bug 或漏洞,但我们正试图将所有主要的新功能都集中在 Operator 上。

Helm 仍有一席之地


在工具方面,我们不认为 Helm 和 Operator 是相互排斥的。这两种方法是互补的,我们需要根据其优势来使用每一种方法。我们将继续使用 Helm 执行基本的安装操作,包括安装 Operator 以及设置 Cassandra 和其他组件使用的管理员服务帐号(Administrator Service Account)。这些都是 Helm 这样的包管理器最擅长的功能。

Operator 设计和实现的选择


在 K8ssandra Operator 的设计和实现中,我们做出了几个关键的选择。

模块化设计

虽然 Reaper Operator、Medusa Operator 和 Stargate Operator 有单独的仓库,但我们计划将它们合并到 K8ssandra Operator 中。K8ssandra Operator 将在单个 pod 中运行,但将包含与每个 CRD 对应的多个控制器。我们将会有多个 CRD 和多个控制器。因为 cass operator 已经被独立使用,所以它仍将是独立的,并将成为 K8ssandra Operator 的一个依赖项。



虽然目前这不是微服务架构,但它是松耦合和模块化的,所以未来如果需要,我们可以将控制器重新打包为独立的微服务。

基于 Operator SDK 使用 Go 语言开发


我们决定基于 Operator SDK 使用 Go 语言编写 K8ssandra Operator。对于我们来说,这是一个简单的选择,因为我们已经从开发 cass-operator 中熟悉了它。我们相信使用像 Go 语言这样的全功能编程语言会比使用 YAML 模板更有吸引力,并有助于吸引新的贡献者加入项目。这还将使我们能够使用该语言的全部功能。例如,Go 可以很容易地创建易于重用的辅助函数。

K8ssandra 集群级状态


新的 K8ssandra 集群 CRD 有一个状态字段,可以让您大致了解集群的状态,包括是否已经就绪(ready)、尚未就绪(not ready)、正在初始化(initializing)等等。该状态将汇总组成集群的所有对象的健康状况,包括 Cassandra 集群、Stargate、Reaper 和其他任何部署在其中的对象,而这不是 Helm 可以做到的。

与 Kubernetes 的方式更加一致


我们为每个定制资源开发控制器的设计方法与 Kubernetes 中管理资源的标准方法更加一致。例如,我们有一个特定的启动顺序,我们想定义如下规则:在 Cassandra 初始化之前不启动 Stargate。开箱即用的 Helm 无法实现这一功能。我们必须在 Stargate pod 中添加一个初始化容器,以执行集群启动和运行的基本检查。有了新的 Operator,Stargate 可以检查 Cassandra 数据中心 CRD 的状态变化。当它被调协器(reconciliation)触发运行,它查询获得 Cassandra 数据中心的状态,一旦其状态变为就绪(ready),Operator 就将部署 Stargate。

测试覆盖率


这种方式也将改进测试。有很多可用的测试覆盖工具,例如我们正在使用的 SonarCloud。然而,我们不能将 SonarCloud 与 Helm 模板一起使用。所以我们现在没有一个好的方法来衡量测试中的覆盖水平,而且 IDE 的支持也不像对静态语言那么好。

我们仍在研究的事情

在开发 Operator 的过程中,我们还在继续探索和学习一些领域。

加速迭代开发


Helm 模板非常适合快速迭代,但 Operator 的开发步骤更复杂。在修改 Operator 代码之后,我们必须重新构建 Operator 镜像并部署它,然后部署 Operator 管理的定制资源,以便它随后生成 Deployment 对象,然后我们就可以验证部署了。这个过程涉及更多步骤,所以我们正在寻求改进方法,使其更加自动化。

多集群集成测试


测试多集群 K8ssandra 部署存在一些挑战。到目前为止,我们已经能够使用 GitHub Actions 进行大多数持续集成测试(使用免费的 tier runner),但我们发现这在涉及多集群资源的时候是不够的。


我们正在调研的集成测试工具之一是Kuttl。使用 Kuttl,测试用例和预期结果都在 YAML 文件中描述,这意味着您不必是 Go 语言或 Kubernetes API 的专家也可以贡献测试。我们相信这会让开发人员更容易参与测试并立即做出贡献,然后如果他们愿意,可以按照自己的节奏开始使用 Go。

您应该使用 Operator 吗?您应该开发一个 Operator 吗?


如果您已经读到这里,您可能想知道这对您自己的项目的影响。如果您在 Kubernetes 中使用数据库或其他基础设施,那么使用 Operator 尽可能自动化的操作工作负载肯定是有意义的。


如果您为数据基础设施供应商工作,或者为开源数据基础设施项目做出贡献,您可能会好奇何时应该开始构建 Operator。我们在自己的过渡过程中进行了很多思考,特别是在时间安排和对用户的影响方面。最终我们的建议是:您在很多情况下发现您所使用的工具对您不利,而不是对您有利,此时可能是时候考虑不同的解决方案了。

建立社区


我们现在看到对 K8ssandra 的贡献有所增加,尤其是在问题创建方面。现在我们已经开始在 Operator 的发展中获得动力,不断增长的用户社区帮助我们认识到为了加快产品成熟而需要做的事情,这是拥有这样一个社区的巨大好处。


我们还想继续加强代码贡献团队。如果您有兴趣在 Kubernetes 上运行 Cassandra 或构建 Operator,我们很乐意让您成为 K8ssandra 项目的一员。您可以查看我们的网站,也可以在论坛或我们的Discord服务上提出任何问题。


原文链接(This article initially appeared on The New Stack

2022-01-15 09:006638

评论

发布
暂无评论
发现更多内容

PHP正版交友系统交友平台源码+支持H5小程序+带安装说明+可封装APP 交友程序网站源码+安装说明

DUOKE七七

php 开源 源码 uniapp 交友

联想拯救者携手《黑神话:悟空》,开启国产单主机巨作的新时代

科技范儿

开发者之声:我们正在聆听!体验低代码Astro并提交建议,赢取华为GT系列手表等好礼!

华为云PaaS服务小智

云计算 低代码 华为云

AIIA走进联盟成员单位——创新奇智

中国信通院AI Infra工作组

【YashanDB知识库】PHP使用ODBC驱动无法获取长度为256char以上的数据

YashanDB

国产数据库 数据库系统 yashandb 崖山数据库

和鲸科技执行总裁殷自强:面向空间数据协同分析场景的模型生命周期管理方法

ModelWhale

人工智能 大模型 生命周期管理 地球科学

TDengine 3.3.0.0 引入图形化管理工具、复合主键等 13 项关键更新

TDengine

数据库 tdengine 时序数据库

链游开发:探索游戏与区块链的交汇点

区块链开发团队DappNetWork

2024最新多端社交圈子系统源码 | 陌生人社交 | 即时聊天通信 | 小程序+H5+PC+APP等多端

DUOKE七七

php 开源 源码 uniapp 交友软件开发

【YashanDB知识库】PHP使用OCI接口使用数据库绑定参数功能异常

YashanDB

数据库 yashandb 崖山数据库

可信AI评估 | 中国信通院“人工智能开发平台——大模型专项”首轮评估正式启动报名

中国信通院AI Infra工作组

DePIN赛道:从底层设施到上层应用的五大机遇与挑战

TechubNews

探索国产化项目管理工具:6款顶尖系统全面对比

爱吃小舅的鱼

项目管理 系统 国产

精彩回顾!圆桌讨论“大模型与网络空间安全前沿探索”

云起无垠

2024 AIIA先锋案例 | “AI Infra”专项征集工作正式启动

中国信通院AI Infra工作组

元宇宙和链游的疯狂故事对经济有什么影响?

区块链开发团队DappNetWork

碳实践|企业组织碳排放因子宝典

AMT企源

数字化转型 双碳 碳管理 碳核算 碳排放

关于举办青岛“AI+海洋”人工智能大模型场景应用对接会的会议通知

中国信通院AI Infra工作组

价格战迷雾下,大模型创业者只能被动挨打?

Alter

《高质量大模型基础设施建设指南》编制正式启动

中国信通院AI Infra工作组

字节跳动基础架构两篇论文入选 VLDB 2024

字节跳动云原生计算

字节跳动 VLDB

解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展

汀丶人工智能

大模型 思维链

机器学习:人工智能的子领域之一

天津汇柏科技有限公司

机器学习 #人工智能

DePIN赛道:从底层设施到上层应用的五大机遇与挑战

TechubNews

推荐捷行Jim老师高阶课程的八大理由

ShineScrum捷行

中国信通院牵头的人工智能平台国际标准在ITU-T成功立项

中国信通院AI Infra工作组

我们将Helm用至极限,然后创建了一个Kubernetes Operator_架构_InfoQ精选文章