QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

Netflix Chaos Monkey 2.0 发布

  • 2016-11-16
  • 本文字数:1045 字

    阅读完需:约 3 分钟

Chaos Monkey 是在 Netflix 整体微服务化的形势下开发的。为了增加微服务架构的弹性,需要确保当服务集群中有节点失败或者退出时不会影响整体服务。由于 Netflix 的内部文化,没有办法通过框架或者编码规范来形成一套能够满足弹性要求的框架。最终,Netflix 选择开发了 Choas Monkey:一个在生产环境随机选择并关闭服务的工具。对于这个选择,有人会觉得很疯狂,但是通过频繁的服务失败演练,使得开发团队对服务集群稳定性有了更高的重视,以确保不会因为这些演练对最终用户产生影响。

Netflix 将 Chaos Monkey 定位为提升服务质量的高效工具。最近发布的 2.0,除了带来更好的可维护性,也带来了一些新的特性。

和 Spinnaker 集成

Spinnaker 是 Netflix 的持续交付平台,Chaos Monkey 2.0 和它结合之后,可以在 Spinnaker 上对其进行配置。同时 Chaos Monkey 可以从 Spinnaker 获取服务部署的相关信息并通过 Spinnaker 关闭服务实例。

由于集成了 Spinnaker,Chaos Monkey 增加了对多种后端的支持,包括:AWS、GCP、Azure、Kubernetes、Cloud Foundry。

Chaos Monkey 2.0 还在配置上进行了优化,用户可以设置两次终止之间的平均时间,而不是在任意时段内的概率。另外,针对服务所在的环境进行分组,分组方式延续了 AWS 的概念,包括应用、应用栈(stack)和集群。配置页面如下:

追踪关闭行为

Chaos Monkey 2.0 可以单独配置外部追踪器,当 Chaos Monkey 对某个实例进行了关闭操作后,它会向配置的追踪器发送通知。对于 Netflix 内部使用来说,Chaos Monkey 会将通知发送到 Atlas (Netflix 的检测系统)和 Chronos (Netflix 的事件追踪系统)。下图是 Atlas 系统的截图,展示了 Chaos Monkey 对于部分服务的关闭操作行为,值得注意的是,Chaos Monkey 还会关闭自己的服务实例。

其他改变

之前版本的 Chaos Monkey,除了支持关闭服务实例之外,还支持其他一些操作系统级别的破坏,例如提高 CPU 占用率、阻塞网络 IO、写满硬盘空间等。Chaos Monkey 2.0 移除了这些功能,只支持关闭服务实例。对于这些功能移除,Netflix 的工程师认为,这些功能应该被放到故障注入服务中进行定向注入,而不是作为 Chaos Monkey 的随机操作之一。关于故障注入,Netflix 也有一些介绍

Chaos Monkey 2.0 源码在其 Github 仓库上已经可以下载和部署。详细部署方式参见 Chaos Monkey 的 wiki 页面


感谢陈兴璐对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-11-16 18:002679

评论

发布
暂无评论
发现更多内容

为什么用代理ip网页加载不出来,一直转圈?

巨量HTTP

代理IP

创新型联合共创 |数糖 × 和鲸:挖掘数据价值,形成数据产出

ModelWhale

数据分析 数据 商业价值 地理标志 联合共创

开箱即⽤!HashData 云数仓上线华为蓝鲸应⽤商城

酷克数据HashData

Stream流处理快速上手最佳实践 | 京东物流技术团队

京东科技开发者

京东云 企业号9月PK榜

软件测试/测试开发丨Web自动化—capability参数配置 学习笔记

测试人

Python 程序员 软件测试 自动化测试 Web自动化测试

科兴未来 | 第十届中国(泰州)国际大健康产业高层次人才创新创业大赛公告

科兴未来News

WorkPlus | 好用、专业、安全的局域网即时通讯及协同办公平台

BeeWorks

2023 年中国国际服务贸易交易会发布:和鲸科技两项成果入选“智赋百业”人工智能融合发展与安全应用典型案例

ModelWhale

人工智能 大模型 AIGC

从好玩到好用:程序员用AI提效的那些事儿 | 京东云技术团队

京东科技开发者

AI 京东云 ChatGPT 企业号9月PK榜

基于Spring事务的可靠异步调用实践 | 京东物流技术团队

京东科技开发者

spring 京东云 企业号9月PK榜

一文了解袋鼠云在实时数据湖上的探索与实践

袋鼠云数栈

数据湖 实时数据湖 湖仓一体 实时湖仓

如何选择安全稳定的大文件传输软件平台,企业传输必看

镭速

云桌面是什么?看完这篇你就明白了

青椒云云电脑

桌面云 云桌面

企业选择云桌面系统的主要原因是什么?

青椒云云电脑

云桌面 云桌面厂家

行云管家全面适配信创国产化平台

行云管家

云计算 信创 国产化 安全运维

实力!云起无垠获评清华校友三创大赛“天使组”十强

云起无垠

Footprint Analytics 宣布与 GameFi 平台 Game Verse 达成合作

Footprint Analytics

区块链

多链代币开发数字货币开发相关介绍

区块链软件开发推广运营

交易所开发 数字藏品开发 dapp开发 NFT开发 区块链开发链游开发

文心一言 VS 讯飞星火 VS chatgpt (92)-- 算法导论8.3 5题

福大大架构师每日一题

福大大架构师每日一题

团队绩效考核,OKR还是KPI?

老张

OKR KPI 绩效考核

跟模型和中间层聊聊:什么是最好的AI原生应用?

Zilliz

Milvus 大模型 AIGC 向量数据库

杭州站|阿里云 Serverless 技术实践营(Serverless + 大数据)开启报名!

Serverless Devs

大数据 开源 Serverless 云原生

《孤注一掷》揭露你我身边的网络安全威胁

云起无垠

【云资讯】行云管家-云计算服务商佼佼者

行云管家

云计算 云管理 云计算运维 云服务商

移动云桌面,随时随地交付桌面系统!

青椒云云电脑

云桌面

Netflix Chaos Monkey 2.0发布_语言 & 开发_金灵杰_InfoQ精选文章