产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

Gremlin 发布混沌工程实验平台免费版,开放了“故障即服务”功能

  • 2019-04-01
  • 本文字数:2319 字

    阅读完需:约 8 分钟

Gremlin发布混沌工程实验平台免费版,开放了“故障即服务”功能

Gremlin 团队最近发布的“Gremlin免费版”,开放了 Gremlin“故障即服务”功能,支持在 SaaS 平台上的运行部分混沌工程实验。当前开放的免费版本允许用户通过 Web,API 或者 CLI 命令行的方式,在主机或容器上执行关闭节点和 CPU 攻击的实验。


Gremlin 团队于 2017 年底发布了他们的混沌工程实验 SaaS 产品的首个版本,支持对主机以及底层基础设施编排执行多种、多次的攻击实验。随后在 2018 年发布的应用级故障注入(ALFI)功能,允许在应用服务或方法级别执行攻击实验。关闭运行中实例的能力是 Gremlin 产品演进过程中最主要的攻击实验方法之一,它的部分灵感来源于混沌工程领域中第一个工具——混乱猴子(Chaos Monkey)。


尽管混乱猴子非常实用,Gremlin 团队认为要想安全可靠地使用它,需要比较长的学习时间。混乱猴子仅仅支持在 AWS 上运行(不过包含类似功能的工具也逐渐出现在市面上,比如支持在其他平台,如 Azure 和 Google Cloud Platform 上面运行的工具)。“Gremlin 免费版”旨在降低开始执行混沌工程实验的门槛,让用户可以用最小的代价快速看到混沌工程实验的价值。


Tammy Butow(Gremlin 首席 SRE 工程师)给想要尝试这些新免费功能的工程师们提供了一个工具包。这个工具包包含了 5 个混沌工程实验的详细操作步骤,既有如何在 AWS,Azure 和 Google Cloud Platform 上执行关闭主机和容器的实验(需要用户使用自己的云服务账户),也有如何在本地 Docker 环境中执行关闭容器的实验。


InfoQ 最近采访了 Gremlin 的产品总监 Lorne Kligerman,讨论了“Gremlin 免费版”的初衷和未来的计划。


InfoQ:你好 Lorne,非常感谢接受我们的采访。首先能向我们介绍一下推出“Gremlin 免费版”的初衷吗?


Lorne Kligerman:有几点,第一个很简单,我们希望通过不断普及混沌工程来进一步完成我们的使命——让互联网应用更可靠。混沌工程吸引了很多的关注和兴趣,但市面上各种解决方案并不能提供足够的可靠度和安全度,同时也没有可以快速上手的 UI。


另一个动机是,我们希望开发者通过第一时间体验混沌工程实验所带来的价值和影响,并据此来决策如何为他们的用户提供正确的产品服务。“Gremlin 免费版”让每一个用户都可以快速注册,安装客户端,执行实验,最后观察实验结果。


另外,通过这个实践过程(包括配合使用现有工具并监控观察实验结果),无论是验证了系统的弹性,还是发现了潜在的缺陷,对开发者所在的组织来说都可以提高其系统的成熟度。


当然,用户也可以选择解锁 Gremlin 全功能版。


InfoQ:和我们自己运行混乱猴子和其他相关工具相比,“Gremlin 免费版”提供的功能有什么不同吗?


Kligerman:回到刚才的第一个问题,大家对混沌工程的认知来源于一系列的开源解决方案,包括混乱猴子。虽然开源非常美妙,但是搭建起开源软件运行的环境并使其稳定持续工作的成本通常不低。混乱猴子尤其不容易使用,它只能在 AWS 上工作,而且只提供随机关闭虚拟机的攻击实验类型。(值得一提的是我们的 CEO Kolton 曾在 Netflix 打造了他们的第二代故障注入工具集。)


Gremlin 提供的是一套完整的 SaaS 服务,包括了简洁的 UI 和快捷的安装方法。它提供了十数种攻击实验方式,从模拟 CPU 尖刺到硬盘资源耗尽,再到网络延迟注入等。无论是通过 UI,API 还是 CLI 使用 Gremlin 平台,用户随时都可以使用“停止攻击”按钮来快速终止所有攻击实验,让系统恢复到健康状态。我们从最根本上优先考虑了简易性,可靠性和安全性。


最后,我们希望让这个解决方案和“随机破坏东西”区别开。随机破坏有它适用的场景,但是我们认为真正产生价值的应该是经过深思熟虑后作出的实验计划,在执行时从最小爆炸半径开始逐步扩大影响范围。我们坚持要先形成系统可能行为的假设,然后通过执行实验来学习系统真实的行为表现,随着对系统信心的提升,我们可以不断扩大实验的影响范围。


所以回答你关于“Gremlin 免费版“的问题,我们其实有一部分想法就是提供一个更好的混乱猴子。它拥有和我们企业版一样简洁的 UI,可以在任何云平台上或者本地使用,并且提供两种攻击实验方式:关闭节点(和混乱猴子一样)和 CPU 攻击。


InfoQ:你怎么看待 Gremlin 下一步的发展方向?我们注意到有越来越多关于系统可观测性的讨论,尤其是复杂分布式系统,Gremlin 会考虑推出相关产品,或者考虑和现有其他产品集成吗?


Kligerman:我们还是会聚焦在我们的核心竞争力,不会去开发一套监控解决方案。业界已经有非常多出色的产品。我们目前集成了 Datadog,也在和 New Relic、Dynatrace 沟通合作,Honeycomb 的 CEO Charity Majors 去年在我们的大会上做了演讲,也表示出很大的合作兴趣。所以,是的,我们期望和所有这些出色的产品深度合作,同时非常赞同可观测性对于混沌工程来说至关重要。


至于 Gremlin 平台的未来,某种程度上我们已经领先于市场。去年发布的应用级故障注入功能已经可以执行更细粒度的实验,例如在应用级别和单次请求级别(支持 serverless)注入故障,目前市场还落后于我们。


InfoQ:最近有一些比较受欢迎的基金会,或者新兴的基金会,如CNCF,新持续交付基金会,Gremlin 同他们的关系如何?


Kligerman:我们是 CNCF 的活跃成员,对我们来说,作为这类社区的成员非常重要。新持续交付基金会比较有意思,因为在这个领域我们已经做了很多工作,坚信要发挥混沌工程最大的价值,就需要尽可能最大化自动化程度,同时整合到持续构建或持续交付的流水线里。敬请期待稍后在这方面的公告!


使用“Gremlin 免费版”需要通过 Gremlin 官网进行注册。可以在 Gremlin 官网找到产品的文档,以及更多的帮助可以访问 Slack 混沌工程频道或者 Gremlin 支持频道


查看英文原文:Gremlin Announces Free Tier for Their Chaos Experimentation Platform


2019-04-01 08:002903

评论

发布
暂无评论
发现更多内容

Docker 入门教程(简明易懂、零基础篇)

搞大屏的小北

Docker 容器 Docker-compose 入门 Docker 镜像

HDMI接口需注意的PCB可制造性设计问题

华秋PCB

接口 工具 PCB PCB设计 可制造性

火山引擎DataLeap的Data Catalog系统公有云实践 (上)

字节跳动数据平台

大数据 数据中台 数据治理 数据安全 企业号 7 月 PK 榜

Sugar BI:大模型时代的智能 BI

Baidu AICLOUD

BI 数据智能

超强阵容!HarmonyOS极客马拉松2023专家评审团来袭!

HarmonyOS开发者

HarmonyOS

从分片传输到并行传输之大文件传输加速技术

镭速

大文件传输

万字长文浅析配置对MySQL服务器的影响 | 京东物流技术团队

京东科技开发者

MySQL 数据库 服务器 企业号 7 月 PK 榜 MySQL服务器

4个维度重构组织能力,实现人力资源数智化

用友BIP

人力资源

618技术揭秘 - 大促弹窗搭投实践 | 京东云技术团队

京东科技开发者

前端 弹窗 xview 企业号 7 月 PK 榜

动态QPS压测模型【Go语言】

FunTester

扫盲低代码

互联网工科生

前端 低代码 应用开发

实践分析丨AscendCL应用编译&运行案例

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

中文人物关系知识图谱(含码源):中文人物关系图谱构建、数据回标、基于远程监督人物关系抽取、知识问答等应用.

汀丶人工智能

人工智能 nlp 知识图谱 智能问答

基于因果关系知识库的因果事件图谱构建

汀丶人工智能

人工智能 自然语言处理 知识图谱

2023开源数据库排行榜发布,“新晋黑马”瀚高IvorySQL跻身三十强

Geek_2d6073

源码解析Collections.sort ——从一个逃过单测的 bug 说起 | 京东云技术团队

京东科技开发者

排序算法 源码解读 企业号 7 月 PK 榜 Collections.sort

中小微企业选择哪家云管平台好?理由有哪些?

行云管家

云计算 云管平台 云管理

IPQ9574 VS IPQ6010 VS IPQ5018 VS IPQ4019-Understand the performance of different chips

wifi6-yiyi

wifi WiFi7 wifi5,wifi6

广东省《5A物理抗菌纺织品》团体标准颁布

Geek_2d6073

一种配置化的数据脱敏与反脱敏框架实现 | 京东云技术团队

京东科技开发者

数据安全 脱敏 数据脱敏 企业号 7 月 PK 榜

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v9.0版已发布

JackJiang

网络编程 即时通讯 IM

支付宝小程序云李铮:科技赋能,敏捷增长

TRaaS

支付宝小程序 小程序云开放 蚂蚁

KaiwuDB 资深解决方案专家周幸骏:打造核心时序引擎,释放数据新价值

KaiwuDB

时序数据 KaiwuDB

揭秘ChaosBlade CPU故障:实现CPU故障的黑科技

柠檬汁Code(binbin0325)

源码分析 cpu 混沌工程 ChaosBlade 故障模拟

详解!视频直播源码布谷科技平台搭建开发:录制功能

山东布谷科技

软件开发 视频直播 源码搭建 短视频直播源码 视频录制

Coral Finance 将为 Zepoch 节点空投,Nautilus生态空投季开启

大瞿科技

明晚直播:可重构计算芯片的AI创新应用分享!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

科研类项目核算的“法、术、器”(二)

用友BIP

项目管理 科研项目

Coral Finance 将为 Zepoch 节点空投,Nautilus生态空投季开启

西柚子

数据库集群方案详解

KaiwuDB

KaiwuDB 数据库集群技术

2023年广西等保测评机构名单看这里!新增一家哦!

行云管家

广西 等级保护 等保测评

Gremlin发布混沌工程实验平台免费版,开放了“故障即服务”功能_软件工程_Daniel Bryant_InfoQ精选文章