写点什么

Twilio 的混沌工程实践

  • 2017-12-27
  • 本文字数:920 字

    阅读完需:约 3 分钟

Twilio 团队分享了他们的初次混沌工程实践,他们使用 Gremlin 往自家的队列系统中注入故障,测试系统的自动恢复能力。

Twilio 提供 SMS 和电话网关服务,开发者可以在他们的代码中调用 Twilio 的 API。Twilio架构的核心部分是他们的分布式队列系统和速率限定系统。它提供了持久化的队列,解决了系统故障和消息处理的延迟问题,避免消息丢失。这个队列系统叫作 Ratequeue ,由 Twilio 团队开发。Ratequeue 对消息出队速率进行了限定——每个电话号码都有一个自己的临时队列。因为开发者有可能以很快的频率调用 API,所以速率限定是很有必要的,而 Twilio 将消息推送到电话网络的速度也需要加以控制。Ratequeue 是基于 Redis 开发的,可以进行横向扩展。单个分片故障并不会影响到其他分片。另外,为了高可用,每个分片都有自己的主节点和副本。

之前,如果有分片发生故障,需要由人工手动将副本提升为主节点。这就要求先定位到拥有相同分片数量的主机,然后把它加到负载均衡器中。Twilio 团队开发了两个系统,旨在对这一过程进行自动化——一个自动化的失效备援系统和一个用于测试前者的故障注入系统。故障注入系统属于混沌工程,通过制造随机的故障来测试系统的自我恢复能力。

测试的首要目的是保证零数据丢失,其次要保证能够自动检测出故障,并推举出新的主节点。Twilio 团队基于 Amazon Kinesis、Nagios 和 Lazarus 开发了自己的解决方案——也就是他们的集群自动化服务。每个 Ratequeue 副本将主节点的心跳情况发送给 Nagios,如果达到某个阈值,Nagios 就向 Kinesis 推送通知。Lazarus 监听 Kinesis,检查集群的健康状况,如果出现故障,就进行恢复。

为了测试自动故障恢复能力,Twilio 团队开发了一个叫作 Ratequeue Chaos 的工具,它会选择一个分片,停掉它的主节点,然后监控其自我恢复过程。他们有一个叫作 Gremlin 的服务,用于将故障注入到系统中,触发失效备援。Gremlin 支持可控的故障注入,Ratequeue Chaos 通过 Gremlin 提供的 API 来调用它。Twilio 的 staging 环境每 4 个小时会重复一次这个过程。

Twilio 团队也分享了他们从这一实践中学到的东西——基于测试模型的假设、用于运行测试的框架、在生产环境中需要有一个回退计划。

查看英文原文 Chaos Engineering at Twilio

2017-12-27 18:001922
用户头像

发布了 322 篇内容, 共 146.9 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

超越传统:人工智能赋能加持下的自动化测试

霍格沃兹测试开发学社

HFT算力合约模式系统开发丨技术详情开发

l8l259l3365

揭秘「 B 站最火的 RAG 应用」是如何炼成的

Zilliz

AI Milvus Zilliz LLM rag

WiMinet 评说1.3:模拟式UDP中继技术缺陷

Geek_ab1536

“课-训-赛”育人才!南开大学闫晓玉老师分享Python实战类课程的教学经历

ModelWhale

Python 人才培养 数据科学 教学

如何做代币分析:以 USDT 币为例

Footprint Analytics

blockchain defi

SD-WAN助力企业数据传输安全

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

Sora,数据驱动的物理引擎

澳鹏Appen

人工智能 生成式AI sora 文生视频 视频标注

WiMinet 评说1.2:多跳无线网络的困境

Geek_ab1536

深入解析Python并发编程的多线程和异步编程

不在线第一只蜗牛

Python 多线程 代码 并发

从 0 到 1 搭建亿级商品 ES 搜索引擎

字节跳动云原生计算

云原生 ES 云搜索

一文告诉你到底什么是低代码?

秃头小帅oi

WiMinet 评说1.1:多跳无线网络的现状

Geek_ab1536

如何生成速卖通平台的API密钥?

技术冰糖葫芦

API 接口

为什么您的网站需要美国主机CDN加速?一文解答所有疑问

一只扑棱蛾子

美国主机

英特尔锐炫新旧驱动对比测评:新老游戏全方位进化!

E科讯

欢迎参与2024年 OpenTiny 开源项目用户调研

OpenTiny社区

开源 前端 低代码 组件库

国内行业桌面云解决方案哪家比较强?

青椒云云电脑

桌面云 云桌面 云桌面方案

MES系统中的手动排产和自动排产-助力生产效率

万界星空科技

制造业 mes 万界星空科技 生产管理 自动排班

一次投入,多倍回报,英特尔vPro驱动全新商用AI PC

E科讯

如何利用Allure报告提升你的测试效率?

霍格沃兹测试开发学社

2024-02-28:用go语言,有一个由x轴和y轴组成的坐标系, “y下“和“y上“表示一条无限延伸的道路,“y下“表示这个道路的下限,“y上“表示这个道路的上限, 给定一批长方形,每一个长方形有(

福大大架构师每日一题

福大大架构师每日一题

拼多多API助力商家提升销售效果和市场竞争力

技术冰糖葫芦

API 接口

揭秘商品计划管理系统:鞋服品牌如何实现飞跃式增长?

第七在线

测试开发名企定向培养训练营,快速提升核心竞争力!

霍格沃兹测试开发学社

Twilio的混沌工程实践_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章