2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Checkly 如何借助 Terraform 实现零宕机部署

  • 2018-11-26
  • 本文字数:1788 字

    阅读完需:约 6 分钟

Checkly如何借助Terraform实现零宕机部署

Checkly 是一款验证 API 端点正确性和浏览器点击流的监控工具。Checkly 创始人 Tim Nolet 分享了他们在 AWS 上基于 Docker 的基础设施中借助 Terraform 实现零宕机部署的经验。


Checkly 使用“工作者(worker)”运行用户提交的作业。每名工作者在一个 Docker 容器中运行,5 个容器运行在一个 EC2 实例上。Checkly 面临的挑战是,在不影响用户体验的情况下部署到 AWS,同时支持代码的多版本和工作者代码的独立升级。他们使用 Terraform 的模块、滚动更新和自定义远程执行程序代码来实现这一目标。


Checkly 使用 Puppeteer 框架自动化浏览器操作。Puppeteer 是一个面向 Chrome 浏览器的无头 Node API。每个 Checkly 工作者是一个 Node 进程,可以接受参数和运行测试,而不需要保存任何状态,这样便于根据请求流量进行横向扩展。用户请求被 cron 作业压入一个 AWS SQS 队列,工作者从中取出,并把结果放入另一个队列。失败的作业不会调用 SQS API 来删除消息,而是会重试。部署一个新版本到 AWS 是通过一个基于 Docker 的生命周期,后续使用 Terraform 原语进行滚动更新。代码会经过三个环境——开发、测试和生产。为了解更多信息,InfoQ 联系了 Checkly 创始人 Tim Nolet:


Docker 容器中内置了单元测试代码,build、tag、push 等 Docker 命令作为脚本包含在 package.json 中。我们把容器(标记上一个版本号和“测试”标签)push 到我们的私有 Docker 注册库,然后完成一个测试 EC2 实例周期,后者会使用 Terraform 的“taint”命令 pull 最新的测试容器。


Terraform 中的“taint”命令会强制销毁和重新创建资源(在本例中是 EC2 实例)。Checkly 的团队让测试实例运行几天。如果一切顺利,Docker 镜像将被重新标记为“最新”,所有生产 EC2 实例都将重复“taint”命令,从而完成滚动更新。Checkly 的其中一个目标是允许应用程序的多个版本共存,这可能需要在代码或数据存储和消息队列中进行额外的处理。例如,如果 SQS 消息中使用的 JSON 格式发生了变化,那么在较短的时间内,这两种格式都必须处理,旧格式减少而新格式增加。Nolet 详细阐述了他们的方法:


由于我们还很年轻,所以在整个数据传输对象或消息传递方案中还没有发生很大的变化。但我总是会在代码中解决这个问题。队列总线、存储和所有其他中间件都不是做这件事的合适位置。因此,如果这意味着要用一堆额外的 if 语句或 case switch 来处理这两种消息类型,那就这样吧。我们使用 Postgres 作为主要的数据存储,因为 JSON 字段非常适合于数据模型的小幅调整,不会带来很多麻烦。


Terraform 提供了 create_before_destroy 等原语,以及 Checkly 使用的远程执行程序。create_before_destroy 标志可以用于所有 Terraform 托管资源,用于确保在删除旧资源之前创建一个替换资源。当 Terraform 调用底层 AWS 配置程序时,remote-exec 命令会不断检查 Node 进程是否在容器中运行,是就返回,然后向 Terraform 发出资源就绪的信号。它使用一个简单的 grep 命令来实现这一点。Checkly 的 Terraform 代码被组织成模块,每个 AWS 区域一个模块。


Terraform 代码可以通过测试工具包进行测试,比如 Terratest,它可以验证 Terraform 管理的基础设施。然而,Checkly 并没有为此使用任何测试框架,而是依赖于这样一个事实,“测试和生产环境相同,任何主要问题都可以在测试环境中发现”,Nolet 如是说。


Checkly 的基础 Docker 镜像是基于 Ubuntu 的,其中包含运行 Puppeteer 和无头 Chrome 所需的所有包,这增加了一些额外的库和字体。Docker 容器运行一个 PM2 进程,该进程会启动一个 Node 进程。按照 Nolet 的说法,Docker 策略这一部分很稳定,可能导致部署回滚的错误通常出现在实际的产品代码中。Checkly 同时使用 AWS CloudWatch 和 AppOptics 进行监控。CloudWatch 针对 AWS 队列大小、延迟以及实例的基本健康状况发出警告。AppOptics 更侧重于应用程序,检查一些指标,比如最近 10 分钟里给定区域内的运行次数,或者给定区域内的运行时间。Checkly 的状态仪表板是公开的。


查看英文原文:https://www.infoq.com/news/2018/11/checkly-terraform-deployments

活动推荐


12 月 7 日北京 ArchSummit 全球架构师峰会上,来自 Google、Netflix、BAT、滴滴、美团 等公司技术讲师齐聚一堂,共同分享“微服务、金融技术、前端黑科技、智能运维等相关经验与实践。详情点击 https://bj2018.archsummit.com/schedule


2018-11-26 16:571926
用户头像

发布了 1008 篇内容, 共 442.9 次阅读, 收获喜欢 346 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

得帆云DeMDM,业内首家基于低代码技术构建的主数据管理平台

得帆信息

低代码 数据治理 数据清洗 主数据管理 主数据管理平台

SpringBoot 集成 atomikos 实现分布式事务

Java中的异常处理详解(try、catch、finally、throw、throws) | 社区征文

共饮一杯无

Java 异常处理 三周年连更

总结一下Redis的缓存雪崩、缓存击穿、缓存穿透

阿里P8架构师爆肝分享内部开源的JVM垃圾回收PDF文档,共23.3W字

Java JVM 垃圾回收

厚礼蟹!阿里最新SpringBoot核心笔记,一夜爆火于Github。

Java你猿哥

Java Spring Boot JAVA开发 SSM框架

300+页!卷王级别Java面试宝典-阿里服务端开发与面试知识手册!

Java你猿哥

Java spring JVM 面经 SSM框架

如何在ABAP里用函数式编程思想打印出非波拉契Fibonacci(数列)

汪子熙

SAP abap Netweaver 思爱普 三周年连更

高可靠多层板制造服务再获认可!华秋荣获创想三维优秀质量奖

华秋电子

华秋PCB生产工艺 | 第十二道主流程之FQC

华秋电子

文盘Rust -- 用Tokio实现简易任务池

京东科技开发者

rust runtime tokio 企业号 4 月 PK 榜

OpenHarmony社区运营报告(2023年3月)

OpenHarmony开发者

OpenHarmony

SLBR通过自校准的定位和背景细化来去除可见的水印

合合技术团队

人工智能 图像处理 水印消除

低成本,全流程!基于PaddleDepth和Paddle3D的三维视觉技术应用方案

飞桨PaddlePaddle

人工智能 飞桨 PaddlePaddle 三维视觉

面对“失业焦虑”我们可以尝试自媒体分享| 社区征文

浅羽技术

三周年征文

从零学习SDK(6)调试和测试SDK的库

MobTech袤博科技

EMQX Cloud BYOC版本发布:在您的云上体验全托管的MQTT消息服务

EMQ映云科技

物联网 IoT 云服务 mqtt 企业号 4 月 PK 榜

【4.7-4.14】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

爆肝一月!527页文档详解SpringCloud微服务和分布式系统实践

小小怪下士

Java 分布式 微服务 后端 SpringCloud

后端开挂!一个接口实现CRUD操作,这款工具绝了!

Java你猿哥

Java 接口 后端 crud

华为19级大佬10年心血终成百页负载均衡高并发网关设计实战文档

Java 负载均衡 高并发 网关设计

GitHub上疯传数万次!蚂蚁内部绝密分布式高可用算法笔记太香了

Java 分布式 高可用 算法

业内首份!医疗数据安全政策汇编发布(附下载)

极盾科技

数据安全

BAT必刷!GitHub顶级“2023并发编程全优笔记”晋升公司架构组!

Java你猿哥

Java 多线程 面经 SSM框架 多线程并发

活久见,java8 lamdba Collectors.toMap()报NPE

应用部署引起上游服务抖动问题分析及优化实践方案

京东科技开发者

应用部署 jsf 企业号 4 月 PK 榜 上游服务抖动

人人自媒体的时代,程序员该如何利用好自己的优势?我记住了这些神器...

浅羽技术

工具 自媒体 写作技巧 三周年连更

被裁后,狂刷大牛分享的607页JUC源码分析笔记,立马拿蚂蚁offer

Java 高并发 JUC JCF 集合框架

【问题解决】解决 swagger2 默认地址失效

Java你猿哥

Java JAVA开发 swagger2 java项目

太强了!阿里技术官新产"Spring高级源码阅读指南",爆火全网

Java你猿哥

Java spring SSM框架 spring ioc spring aoc

Checkly如何借助Terraform实现零宕机部署_容器_Hrishikesh Barua_InfoQ精选文章