写点什么

用尽一切手段降低 MTTR,混沌工程在华泰证券的落地实践

  • 2021-08-27
  • 本文字数:2634 字

    阅读完需:约 9 分钟

用尽一切手段降低MTTR,混沌工程在华泰证券的落地实践

InfoQ 在做混沌工程系列访谈时发现,企业对混沌工程的认知普遍存在两种情况:一种是企业不了解混沌工程,武断地认为用不上;一种是企业对混沌工程抱有太多期待,对投入产出比的容忍度较低。

 

检索混沌工程的实践新闻,关联词都是“大公司”、“生产环境”、“失控”,看上去似乎是大公司的热闹,也并不那么安全。InfoQ 网站上 4 月发布的《对混沌工程的五个常见误解》每周都挂在周热榜上。混沌工程从诞生至今 11 年,为什么一篇认知相关的文章,依然有这么高的热度?

改变认知是第一步


“其实用不用混沌工程,思考一个核心问题:不管是否使用混沌工程,故障该来总会来的,不会因为技术栈和业务敏感的差异而有所不同。为了让故障真正来临时能应对得更从容一些,应该提前尝试一下类似的破坏实验。从讳疾忌医逐步走向小范围的可控实验、开放性的大规模生产环境实验,信心是逐渐树立的,关键要走出第一步,并且持续走下去,当然这个过程中,混沌平台本身的可靠性便利性也是非常重要的。”华泰证券信息技术部运行保障中心运维平台开发团队负责人邱朋谈到。

 

认知,是混沌工程进入企业,需要跨过的第一个槛。

 

关注混沌工程最应该关注什么?邱朋认为,最需要关注的是效能,即在关注和计划使用混沌工程时,首先要考虑对混沌工程的定位是什么?对它的投入计划是什么样子?计划收获什么?混沌工程是主动增强系统稳定性的优秀实践,但不是万能的,另外对它思想上的认知、投入力度、SRE的配合参与度都会很大程度影响它的效果。

 

“认知上的改变,要先认可稳定性不是通过前期的设计开发或者后期运维、分析,就能彻底发现隐患、消除风险的,必须秉持’从生产中来,到生产中去’的思路,反复对生产环境进行可控的实验,验证系统在可能发生的场景下的表现以及运维人员应对的有效性,才能通过实战检验系统、检验应急能力。特别是金融行业偏稳态,相关负责人这块的认知和思维上的转变是很关键的。”

难,必须做的规模化演练

 

根据华泰证券的经验,混沌工程实践过程中另一大难点是规模化的演练。企业前期在试点范围内开展时,平台本身的便利性、稳定性相对是不足的,此时可以通过人员的针对性辅导和支持解决,一旦取得一些成效并计划规模化推广覆盖时,平台的问题就会批量爆发,且此时没有足够的人力支撑,容易陷入批量的负向反馈声音中,无论从平台使用的人还是平台开发的人,很容易陷入负面或对立的情绪。在真正规模化推广时,需要预先做好孵化和预热。

 

据邱朋介绍,华泰证券建设了故障演练可观测能力的一体化集成、一键式演练、演练场景库、演练知识库、自动化报表等能力提升便捷性。2021 年上半年,华泰证券开展了保卫波特姆行动,从行情、账户的贴身式辅导,通过试点树立信心,逐渐扩充到理财、交易以及其他 300+核心业务系统的负责人自助化演练,最多的时候一天自助化演练 272 次,期间未因开展混沌工程导致业务受损,反而发现了近百个优化点。

 

并且由于行业特殊性,华泰证券在进行混沌工程实践时,尤其需要注意一些问题。由于证券行业的高稳态要求,首先是不可能直接在生产环境进行实验的,特别是交易类的业务场景。比较可行的方案是在测试或仿真环境,控制爆炸半径及迅速停止实验;在逐渐通过测试环境的少量业务系统的试点,混沌工程平台也基本稳定之后,在一些非核心业务且可靠性比较良好的系统进行生产环境的开展;逐步积累信心之后,通过专项的行动进行规模化推广,同时配套自动化的集成的可观测性手段,以及演练过程的可视化、演练报告的自动化生成和评价能力,能大幅度降低 SRE 的精力投入,也能最大化降低推行的阻力。

混沌工程是整个运营保障工具体系中的一环

 

换句话说,混沌工程是整个运营保障工具体系中的一环,而不是一个割裂的平台。

 

“一旦业务卡顿,我们可以第一时间发现,从而进行及时处置。后续业务能处理,响应时间比较长,基本上没有超时,就是卡。系统进程端口是正常的,系统响应部分超时或者全部超时,长时间没有应答,或者会有超时的重试,所以是业务卡顿、业务无响应、业务完全故障和全链路的故障,我们总结下来,所有故障无外乎是这几种。”华泰证券资深稳定性工程专家王帅介绍到。

 

华泰证券稳定性功能架构包括演练管理、故障演练、演练自动化和演练评价四个功能。上文提到华泰证券在 2021 年上半年做的保卫波特姆行动,所谓波特姆就是 Bottom。华泰证券不断探测系统运行底线,发现技术风险。通过建立故障演练模型、故障矩阵和运维联动,对历史故障进行回放,做系统化的地毯式的演练覆盖。

 

如果以混沌工程能力熟练度的 4 个阶段(入门、简单、高级、熟练)评价,在邱朋看来,目前小部分大型互联网企业已经在此领域的世界范围内走得比较靠前,并且开源共享了部分混沌工程能力,大部分企业处于简单阶段:使用工具化的手段可以自助式进行故障的注入,通过手工观察和结果整理获得反馈,部分具备了分组试验对比的能力。如果从应用度看(暗中进行、适当投入、正式采用、成为文化),绝大多数企业还处于“暗中进行”阶段:对重要项目不采用、只覆盖少量系统、组织内部感知不强、早期使用者偶尔进行混沌实验。

 

目前行业是否有通用解决方案?邱朋告诉 InfoQ:“从故障构造能力(特别是计算资源层面)已经比较通用,业内有开源了部分混沌工程技术以及提供了商用化的高可用方案(如 AHAS、ChaosBlade等),可以考虑集成或使用;对于业务层面的故障分析和构造,以及一体化、智能化的混沌工程建设上,可能各家的方案会有不同,建设的进度也不尽相同,像数据丢失损坏的故障构造方案、带载流量下的故障演练、一体化监控处置能力集成的故障演练等能力,华泰是根据自己的特点进行规划和建设的。” 


采访嘉宾简介:

邱朋,华泰证券信息技术部运行保障中心运维平台开发团队负责人,从事运营商、互联网、证券行业软件开发及运维 12 年,具备丰富的运维体系建设和平台落地经验,目前专注于证券金融行业下智能化、一体化的运行保障平台体系建设和 SRE 技术运营的数字化转型。


扫描下方二维码,进入有奖问答

参与国内首个混沌工程调研报告

为了解我国混沌工程发展全貌,中国信通院联合混沌工程实验室启动《中国混沌工程调查报告》问卷征集活动,深入探索我国系统稳定性现状及混沌工程使用情况、行业采纳度、技术成熟度及未来发展趋势,以期推动混沌工我国的概念普及,提升国内系统稳定性,促进软件质量发展。


本次调查问卷由中国信通院联合混沌工程实验室、infoQ、VCEC、中国云原生社区共同发起,参与问卷的用户有机会获得电脑包、文化衫等精美礼品,扫描上方二维码进入问卷。


混沌工程实验室成员包括:


2021-08-27 16:004368

评论

发布
暂无评论
发现更多内容

扎克伯格说AI会让推荐系统变得更强大?一文读懂什么是智能推荐系统

爱AI的猫猫头

人工智能 音视频 推荐系统 办公效率 搜索系统

阿里巴巴拍立淘API返回值:商品关联推荐与交叉销售

技术冰糖葫芦

API Explorer api 货币化 API 接口 API 测试

JNPF快速开发平台让业务活起来

快乐非自愿限量之名

远程访问内网设备:对比IPsec VPN,SD-WAN异地组网更具优势

贝锐

运维 SD-WAN 远程运维 组网

京东面试:说说CMS工作原理?

王磊

邀请函 I 松下信息和望繁信科技邀您参加「数智时代下大数据应用的“道”与“术”」闭门会议

望繁信科技

大数据 数字化转型 解决方案 流程挖掘 流程智能

API可观察性对于现代应用程序的最大好处

幂简集成

API API 接口

vue前端自适应布局,一步到位所有自适应

不在线第一只蜗牛

Vue 前端

相聚中国香港,共赢智能未来!华为云邀您共赴 KubeCon China 2024

华为云原生团队

云计算 云原生 KubeCON AI 人工智能

Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升

StarRocks

Druid Pinterest

畅捷通基于Flink的实时数仓落地实践

Apache Flink

大数据 flink 实时数仓

IoTDB 单机/双活/集群部署的区别和适用场景

Apache IoTDB

全文彩印!人民邮电出版的“24小时学会黑客攻防”,讲的太好了!

我再BUG界嘎嘎乱杀

黑客 网络安全 安全 信息安全 网安

就一次!带你彻底搞懂CSRF攻击与防御

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 CSRF 网安

Java智能之Spring AI:5分钟打造智能聊天模型的利器

快乐非自愿限量之名

Java 人工智能 spring AI

14点自动化经验

FunTester

数据分析与决策支持:京东商品详情API的商业价值

技术冰糖葫芦

API Explorer api 货币化 API 接口 API 测试

解锁企业成功密码—商品计划的神奇力量

第七在线

JNPF快速开发平台助力企业实现工作流自动化

EquatorCoco

工作流 低代码 自动化运维

JNPF快速开发平台赋能数字办公方式转变

不在线第一只蜗牛

低代码 数字化转型 数字化办公

Qwen2-Math 开源 AI 模型发布;阿里云推出首个域名 AI 大模型应用丨 RTE 开发者日报

声网

XIAOJUSURVEY重磅升级,推出图形化逻辑编排能力

XIAOJUSURVEY

开源 规则引擎 可视化编排 图形化编排 问卷逻辑

智源未来选择 TDengine Cloud,解锁高效能源管理

TDengine

某个国外的真实XSS漏洞利用探寻

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 XSS 漏洞

易点天下KreadoAI爆款视频生成功能上新 解锁出海营销新路径

新消费日报

观测云突变告警,精准预测云原生的系统异常

观测云

云原生 监控告警

亚信安慧AntDB-T:使用Brin索引提升OLAP查询性能以及节省磁盘空间

亚信AntDB数据库

AntDB

现成源码开发游戏直播软件:应对快速变化的技术和用户需求

软件开发-梦幻运营部

【活动预告】研讨会+开源集市,IoTDB “登录” GOTC 2024!

Apache IoTDB

Kubernetes 监控:观测云与 Prometheus CRD 的集成

可观测技术

Kubernetes

实用指南|在多云环境中部署向量数据库

Zilliz

大数据 向量数据库 LLM 大语言模型 AICG

用尽一切手段降低MTTR,混沌工程在华泰证券的落地实践_技术管理_张俊宝_InfoQ精选文章