写点什么

ChaosConf 2018:混沌实验的演变

  • 2018-10-14
  • 本文字数:1130 字

    阅读完需:约 4 分钟

在美国旧金山举行的首届 ChaosConf 大会上,Kolton Andrus 做了一个有关混沌实验在过去八年中如何演变的演讲。他认为,与处理故障有关的人力和组织方面的内容不应该被忽略,并建议工具应该支持应用程序和请求级别的故障注入测试,以便最小化潜在的故障影响范围。

Andrus 是 Gremlin 的首席执行官,他通过谈论混沌实验在行业内的演变拉开了活动的帷幕。他将“level 0”实验视为为云端的主机故障做准备。这需要较低的成熟度,而且通常需要使用诸如 Chaos Monkey 之类的工具将主机故障随机地注入到系统中。随着实践的成熟,“level 1”和“level 1.5”实验的实现变得训练有素,并且将额外的重点放在试验网络故障上。这需要网络专业知识和更高级的运营成熟度。

与处理故障有关的人力和组织方面的内容也成为 level 1.5 的一个焦点。这里的实验通常是通过“游戏日”来实现的,这些游戏日提供了训练机会,并模拟故障,以便观察人们在真实情况下的反应。Andrus 警告说,并非所有组织都认识到发展组织应对故障能力和对员工进行适当训练的价值:

我工作过的很多公司在进行轮班待命训练时,摆出一副“这里是你的寻呼机和仪表盘——祝你好运”的姿态。这是不可接受的。

接下来,Andrus 表示,主机测试和基于 OSI Layer 3 和 Layer 4 的网络测试对于很多想要运行混沌实验的组织来说是不够的,因为需要更精细的粒度来限制影响并安全地测试应用程序。他说,“运营人员通常考虑的是请求级别的东西”,为了使用请求级别的数据和元数据来选择性地控制测试和实验,工具需要知道应用级别( Layer 7 )的东西。

在这个时候,Andrus 宣布了 Gremlin 的新应用级故障注入(ALFI)产品。ALFI 支持“level 2”的实验。这是通过在系统中指定“坐标”并匹配针对一组目标运行的实验来实现的。坐标包括应用程序的关注点,例如用户标识符或 A/B 测试,以及平台的关注点,例如服务或地理区域。工程师还可以使用自定义实现来定义自己的坐标。

在演讲结束时,Andrus 总结说,有针对性的坐标可以用来最小化实验的潜在影响范围,并且可以在不干扰整个系统的情况下重现生产环境的中断。应该以迭代的方式安全地扩展实验:

  1. 使用测试用户或设备验证用户体验;
  2. 运行 1%的流量,对影响进行评估;
  3. 运行 10%的流量;
  4. 扩展到 25%、50%、100%。

也可以使用类似的模式来重现中断:

  1. 发生中断时,请假设一个原因;
  2. 创建一个针对单个测试用户的实验;
  3. 以测试用户身份登录并加载页面或应用程序;
  4. 找到日志或证据并验证假设;
  5. 创建拉取请求以修复问题。

有关首届 ChaosConf 的详细信息可以在大会网站上找到,演讲的录像可以在 Gremlin 的 YouTube 频道“ ChaosConf 2018 ”中找到。

查看英文原文 An Evolution of Chaos Experimentation: Kolton Andrus at ChaosConf 2018

2018-10-14 19:001241
用户头像

发布了 731 篇内容, 共 456.6 次阅读, 收获喜欢 2003 次。

关注

评论

发布
暂无评论
发现更多内容

适合小团队协作的app推荐,这8款协同提效工具一定要知道!

彭宏豪95

效率工具 团队协作 在线白板 办公软件 团队协作工具

什么是云电脑?云电脑为何被企业青睐?

青椒云云电脑

云桌面 云电脑

如何利用华为云耀云服务器L实例搭建个人博客网站?

平平无奇爱好科技

Python 数据库应用教程:安装 MySQL 及使用 MySQL Connector

小万哥

Python 程序员 软件 后端 开发

inBuilder低代码平台新特性推荐-第六期

inBuilder低代码平台

低代码平台

T2T2撸毛攻略,以Bitget Wallet为例

股市老人

2023英特尔全栈解决方案服务商高层论坛成功举行

E科讯

2023-11-08:用go语言,字符串哈希原理和实现 比如p = 233, 也就是课上说的选择的质数进制 “ 3 1 2 5 6 ...“ 0 1 2 3 4 hash[0] = 3 * p的0

福大大架构师每日一题

福大大架构师每日一题

ERP管理屡不见效?记住这些秘诀助企业拨云见日

平平无奇爱好科技

厌恶不确定风险?这款轻量云服务器助力企业稳中向好

平平无奇爱好科技

浪潮海岳inBuilder低代码开发认知实践营正式开营

inBuilder低代码平台

低代码平台

苹果windows都想要?上大学该怎么选笔记本电脑?

青椒云云电脑

云电脑

Android发热监控实践

得物技术

性能优化 发热功耗 App体验 端侧监控

Kyligence Copilot 亮相第六届进博会,增添数智新活力

Kyligence

数据智能 决策智能

使用 promise 重构 Android 异步代码

巫山老妖

android 异步编程

康士柏新能源汽车检测解决方案走向市场化

Geek_2d6073

小程序游戏创业大热,找对入局方式方能出奇制胜

平平无奇爱好科技

Bitget Wallet:使用 Base 链购买 ETH 的简明教程

石头财经

设计师为什么要选择云电脑?

青椒云云电脑

云电脑

什么是云电脑?云电脑怎么实现安全的远程办公环境?

青椒云云电脑

云电脑

云电脑与5G网络的结合将会带来什么

青椒云云电脑

云电脑

青椒云桌面云一体机的优势在哪里?

青椒云云电脑

桌面云一体机

为什么明道云不提供原厂实施服务

明道云

新手必看:Bitget Wallet 上购买 ETH 的步骤解析

BlockChain先知

Linux tail命令:显示文件结尾的内容

芯动大师

现在哪个云电脑更好用

青椒云云电脑

云电脑

图形工作站out?云电脑成设计师新宠

青椒云云电脑

云电脑

产品化的GPT,能否为“百模大战”照亮未来?

脑极体

AI

这就是访问者模式

千羽

Java 面试 后端 设计模式 实际应用

不止于“初见成效”,阿斯利康要让数据流转,以 AI 带动决策智能

Kyligence

数据智能

ChaosConf 2018:混沌实验的演变_服务革新_Daniel Bryant_InfoQ精选文章