写点什么

Twilio 的混沌工程实践

  • 2017-12-27
  • 本文字数:920 字

    阅读完需:约 3 分钟

Twilio 团队分享了他们的初次混沌工程实践,他们使用 Gremlin 往自家的队列系统中注入故障,测试系统的自动恢复能力。

Twilio 提供 SMS 和电话网关服务,开发者可以在他们的代码中调用 Twilio 的 API。Twilio架构的核心部分是他们的分布式队列系统和速率限定系统。它提供了持久化的队列,解决了系统故障和消息处理的延迟问题,避免消息丢失。这个队列系统叫作 Ratequeue ,由 Twilio 团队开发。Ratequeue 对消息出队速率进行了限定——每个电话号码都有一个自己的临时队列。因为开发者有可能以很快的频率调用 API,所以速率限定是很有必要的,而 Twilio 将消息推送到电话网络的速度也需要加以控制。Ratequeue 是基于 Redis 开发的,可以进行横向扩展。单个分片故障并不会影响到其他分片。另外,为了高可用,每个分片都有自己的主节点和副本。

之前,如果有分片发生故障,需要由人工手动将副本提升为主节点。这就要求先定位到拥有相同分片数量的主机,然后把它加到负载均衡器中。Twilio 团队开发了两个系统,旨在对这一过程进行自动化——一个自动化的失效备援系统和一个用于测试前者的故障注入系统。故障注入系统属于混沌工程,通过制造随机的故障来测试系统的自我恢复能力。

测试的首要目的是保证零数据丢失,其次要保证能够自动检测出故障,并推举出新的主节点。Twilio 团队基于 Amazon Kinesis、Nagios 和 Lazarus 开发了自己的解决方案——也就是他们的集群自动化服务。每个 Ratequeue 副本将主节点的心跳情况发送给 Nagios,如果达到某个阈值,Nagios 就向 Kinesis 推送通知。Lazarus 监听 Kinesis,检查集群的健康状况,如果出现故障,就进行恢复。

为了测试自动故障恢复能力,Twilio 团队开发了一个叫作 Ratequeue Chaos 的工具,它会选择一个分片,停掉它的主节点,然后监控其自我恢复过程。他们有一个叫作 Gremlin 的服务,用于将故障注入到系统中,触发失效备援。Gremlin 支持可控的故障注入,Ratequeue Chaos 通过 Gremlin 提供的 API 来调用它。Twilio 的 staging 环境每 4 个小时会重复一次这个过程。

Twilio 团队也分享了他们从这一实践中学到的东西——基于测试模型的假设、用于运行测试的框架、在生产环境中需要有一个回退计划。

查看英文原文 Chaos Engineering at Twilio

2017-12-27 18:001862
用户头像

发布了 322 篇内容, 共 144.6 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

中断系统结构及中断控制详解

timerring

8月月更

Kubernetes与OpenStack

CTO技术共享

开源 OpenStack 签约计划第三季 8月月更

2022秋招前端面试题(七)(附答案)

helloworld1024fd

数据治理(四):数据仓库数据质量管理

Lansonli

大数据 数据治理 8月月更

Java 多行字符串

HoneyMoose

Kubernetes 实现 CI/CD 发布流程

CTO技术共享

开源 CI/CD 签约计划第三季 8月月更

Kubernetes 企业如何落地

CTO技术共享

开源 签约计划第三季 8月月更

springboot应用查询城市天气

程序员欣宸

Java spring-boot 8月月更

OpenMLDB + Jupyter Notebook:快速搭建机器学习应用

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征工程

2022秋招前端面试题(八)(附答案)

helloworld1024fd

微服务架构的核心关键点

阿泽🧸

微服务架构 8月月更

Edge 提供了标签分组功能

HoneyMoose

STM32F103实现IAP在线升级应用程序

DS小龙哥

8月月更

RocketMQ 详解系列

牧小农

RocketMQ

MySQL 原理与优化,Group By 优化 技巧

老崔说架构

Discourse 的关闭主题(Close Topic )和重新开放主题

HoneyMoose

Java基础 | Stream流原理与用法总结

Java 架构

【LeetCode】逐步求和得到正数的最小值Java题解

Albert

LeetCode 8月月更

直播 | 服务餐饮商户年交易额超 7000 亿,哗啦啦如何用 StarRocks 搞定实时报表

StarRocks

数据库

Kubernetes 资源核心原理

CTO技术共享

开源 签约计划第三季 8月月更

用Java扩展Nginx(nginx-clojure入门实战)

程序员欣宸

Java nginx 签约计划第三季

Kubernetes web网站无法访问

CTO技术共享

开源 签约计划第三季 8月月更

《MySQL入门很轻松》第3章:数据库的创建与操作

乌龟哥哥

8月月更

绝了,这套RESTful API接口设计总结

知识浅谈

8月月更

mysql进阶(三十一)常用命令汇总

No Silver Bullet

MySQL 常用命令 8月月更

C++运算符重载之加号运算符重载

CtrlX

c c++ 后端 运算符 8月月更

SRv6故障管理

穿过生命散发芬芳

8月月更 SRv6

每日一R「01」跟着大佬学 Rust

Samson

8月月更

Sass.vs.Less | 简介之基础语法

Jason199

SASS 8月月更

抖音开启“818发现好物节”:电商平台造节活动何时休

石头IT视角

语音直播系统——有没有必要开展代码优化

开源直播系统源码

软件开发 直播系统 语音聊天源码 语音直播系统

Twilio的混沌工程实践_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章