写点什么

聊聊分布式系统的认知故障和弹力设计

  • 2018-03-14
  • 本文字数:1402 字

    阅读完需:约 5 分钟

更多左耳朵耗子的独家干货,请订阅极客时间出品的陈皓全年专栏《左耳听风》,一次订阅、永久阅读。即日起,戳此订阅立享以下两大福利:

福利一:原价 ¥199/ 年,极客时间新用户注册立减 ¥30

福利二:每邀请一位好友购买,你可获得 36 元现金返现,多邀多得,上不封顶,立即提现(提现流程:极客时间服务号 - 我的 - 现金奖励提现)

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

本文摘自陈皓(左耳朵耗子)在极客时间 App 上开始的全年付费专栏《左耳听风》,已获授权。欲阅读更多独家文章,请点击此处订阅专栏阅读(支持微信支付)。

我前面写的《分布式系统架构的本质》系列文章,从分布式系统的业务层、中间件层、数据库层等各个层面介绍了高并发架构、异地多活架构、容器化架构、微服务架构、高可用架构、弹性化架构等,也就是所谓的“纲”。通过这个“纲”,你能够按图索骥,掌握分布式系统中每个部件的用途与总体架构思路。

为了让你更深入地了解分布式系统,在接下来的几期中,我想谈谈分布式系统中一些比较关键的设计模式,其中包括容错、性能、管理等几个方面。

  • 容错设计又叫弹力设计,其中着眼于分布式系统的各种“容忍”能力,包括容错能力(服务隔离、异步调用、请求幂等性)、可伸缩性(有 / 无状态的服务)、一致性(补偿事务、重试)、应对大流量的能力(熔断、降级)。可以看到,在确保系统正确性的前提下,系统的可用性是弹力设计保障的重点。
  • 管理篇会讲述一些管理分布式系统架构的一些设计模式,比如网关方面的,边车模式,还有一些刚刚开始流行的,如 Service Mesh 相关的设计模式。
  • 性能设计篇会讲述一些缓存、CQRS、索引表、优先级队列、业务分片等相关的架构模式。

我相信,你在掌握了这些设计模式之后,无论是对于部署一个分布式系统,开发一个分布式的业务模块,还是研发一个新的分布式系统中间件,都会有所裨益。

今天分享的就是《分布式系统设计模式》系列文章中的第一篇《弹力设计篇之“认识故障和弹力设计”》。

系统可用性测量

对于分布式系统的容错设计,在英文中又叫 Resiliency(弹力)。意思是,系统在不健康、不顺,甚至出错的情况下有能力 hold 得住,挺得住,还有能在这种逆境下力挽狂澜的能力。

要做好一个设计,我们需要一个设计目标,或是一个基准线,通过这个基准线或目标来指导我们的设计,否则在没有明确的基准线的指导下,设计会变得非常不明确和不可预测或不可测量。可测试和可测量性是软件设计中非常重要的事情。

我们知道,容错主要是为了可用性,那么,我们是怎样计算一个系统的可用性的呢?下面是一个工业界里使用的一个公式:

其中,

  • MTTF 是 Mean Time To Failure,平均故障前的时间,即系统平均能够正常运行多长时间才发生一次故障。系统的可靠性越高,MTTF 越长。(注意:从字面上来说,看上去有 Failure 的字样,但其实是正常运行的时间。)
  • MTTR 是 Mean Time To Recovery,平均修复时间,即从故障出现到故障修复的这段时间,这段时间越短越好。

这个公式就是计算系统可用性的,也就是我们常说的,多少个 9,如下表所示。

根据上面的这个公式,为了提高可用性,我们要么提高系统的无故障时间,要么减少系统的故障恢复时间。

然而,我们要明白,我们运行的是一个分布式系统,对于一个分布式系统来说,要不出故障简直是太难了。

注:以上仅为文章的一部分,欲阅读全文,请点击此处订阅专栏(支持微信支付)。一次订阅,永久阅读。

2018-03-14 19:002299

评论

发布
暂无评论
发现更多内容

[方式举例]快速把电脑excel电子表格联系人号码一键批量导入手机通讯录里

一码平川

数实融合突破千万级用户!解码珠海万达商管的智慧进化论

新消费日报

MySQL性能飙升10倍的终极优化!架构设计实战,让数据库永不崩溃

程序员高级码农

Java MySQL 面试 :MySQL 数据库

一篇图文详解PID调参细节,实现PID入门到精通

芯动大师

BOE(京东方)携手国家大剧院打造话剧《林则徐》第二现场

科技大数据

哈姆HAHM点评项目在中国合法吗?

web3区块链创业团队DappNetWork

区块链 副业 web3 创业平台 币圈项目

基于 LobeChat 构建企业内部 LLM 知识库平台

亚马逊云科技 (Amazon Web Services)

《Operating System Concepts》阅读笔记:p738-p747

codists

操作系统

清华联合蚂蚁斩获电子学会科技进步一等奖 可信AI技术获国家级学会认可

新消费日报

教你几招判断LED显示屏的好坏

Dylan

LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

中昊芯英荣获首届福布斯中国投资价值初创企业100强

科技热闻

[几种方法]手机号码批量导入手机通讯录的三种超简单方法,适用于苹果iphone安卓手机华为小米手机等导入联系人号码

一码平川

【转】 FMEA

虚实的星空

在 Amazon Graviton 上运行大语言模型:CPU 推理性能实测与调优指南

亚马逊云科技 (Amazon Web Services)

深度解析LLM参数:Top-K、Top-p和温度如何影响输出随机性?

xiaoxi666

AI 大模型

相得益彰 — 基于 GraphRAG 事理图谱驱动的实时金融行情新闻资讯洞察

亚马逊云科技 (Amazon Web Services)

Hume 推出 Octave TTS 即时模式,250 毫秒响应;客服语音智能体 Sona:简单集成、高度自定义丨日报

声网

Arthas tt(方法执行数据的时空隧道,记录下指定方法每次调用的入参和返回信息,并能对这些不同的时间下调用进行观测)

刘大猫

Arthas java 阿里监控 tt 时空隧道

CFD专栏丨空调管路流动噪声LBM仿真

Altair RapidMiner

CAE Hypermesh CFD 流体仿真 振动噪声

[方案举例]大量excel联系人号码批量快速导入iPhone苹果手机和安卓手机的通讯录

一码平川

MCP详解及手把手实战

知识浅谈

MCP MCP协议

Spine 动画教程:皮肤制作

北桥苏

动画制作 Spine

如何彻底删除Mac应用软件?掌握这些方法,轻松搞定,干净又彻底

阿拉灯神丁

MacBook Mac软件 应用程序卸载 CleanMyMac X中文版 卸载清理软件

PIRF 431 - Billionaire Gains.pdf

Echo!!!

English

清华大学携手蚂蚁集团攻坚安全科技,获得中国电子学会科技进步一等奖

新消费日报

征程 6|部署模型尾部 conv 输出 type/layout/scale 解读

地平线开发者

自动驾驶; 算法工具链 地平线征程6

Arthas trace (方法内部调用路径,并输出方法路径上的每个节点上耗时)

刘大猫

人工智能 机器学习 大数据 Arthas 大模型

《人民日报》:助力高校毕业生高质量充分就业

安全乐谷

面试 找工作 简历 实习 校招

使用Gone MCP 组件编写MCP Server

大鹏

golang MCP Gone依赖注入

《Operating System Concepts》阅读笔记:p735-p737

codists

操作系统

百度电商扩大七项「外贸转内销」专项扶持计划

极客天地

聊聊分布式系统的认知故障和弹力设计_语言 & 开发_陈皓_InfoQ精选文章