HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

事故分析的趋势和行为

  • 2017-12-03
  • 本文字数:1325 字

    阅读完需:约 4 分钟

Eric Siegler 是 PagerDuty 公司 DevOps 的负责人,他在上个月于伦敦举办的 Velocity 大会上发表了一份报告,分析了来自125 个不同组织在六个月的时间内的1000 份事故分析(post-mortems)【译注1】。他分析出的主要的趋势包括:无可非议的事故分析的普遍性;仅有1/100 的事故分析源于“人为错误”;以及对事件生命周期的分析可以提供对事件响应过程中相关弱点的深入见解。

由于信息是经由PagerDuty 的事故分析构建器功能从客户端处匿名收集(并保存) 的,Sigler 挖掘了这些数据,寻找常见的人名,结果发现一半的事故分析中都没有出现人名。Sigler 强调说,另外的一半数据中出现了人名也并不一定意味着存在一种指责文化,因为数据可能会以其他方式被曲解;例如,事故分析报告中提及了一个名为“Bob”的服务器(这种情况下,“Bob”也会被识别成人名,但其实是服务器的名字)。

至于明确提到的“人为的错误”,它作为事故被审查的一种可能的原因,经由Sigler 调查,他发现几乎没有证据可以证明事故分析的原因源于“人为错误”(只有1% 的事故分析与“人为错误”有关)。Sigler 以去年3 月的AWS S3 的故障为例强调了这一点,该事件的事故分析并没有声明人为错误是导致故障的一个原因,但媒体的报道泛泛地将其原因归咎个人

收集到的数据还表明,许多组织花费了大量的精力来详细说明事件的时间线(并且很多事故分析都不包含任何关于其他方面的文本信息)。Sigler 警告说,尽管了解被审查的事故是一项有用的练习,但跟踪常见事件的状态转换(启动、自检、改进、解决)可以得到更好的见解以改善整个响应过程。例如,在启动状态和自检状态之间的不断重复就对我们的监测和仪器的正确性提出了疑问。在启动状态和自检状态之间的不断重复可能表明在组织中的知识共享和职责分配方面存在瓶颈,或者仅仅是因为积累了太多的技术债务导致了系统的失败。

Sigler 的另一发现是,大多数的组织平均每月进行事故分析的次数不足一次。有三分之一的组织会在事故后的 24 小时内进行事故分析,还有三分之一的组织会在事故后的一星期内进行事故分析,剩下的那部分在一周后才会进行分析(这样通常很难能克服选择性遗忘)。

Sigler 还强调说,这只是一个小型的数据集,所以分析出结果可能会偏向于一些已经具有完备事故分析过程的组织,因次它们的运营看起来似乎更为成熟。

最后,Sigler 给观众提供了许多建议。首先,事故分析对于检查过程改进是否有助于消除系统中的错误很有帮助,另外,如果我们反复遇到相同的问题,事故分析也能起到很好的作用。其次,事故分析可以发现组织问题,因此,对事故分析结果的应用不能仅仅局限于技术改进。

想要了解更多关于建立事故分析过程的信息,请参考 PagerDuty 关于事故分析过程以及事故分析模板或者 Etsy 事故分析实践的相关内容。Etsy 同样开源了他们的数据收集和事故分析追踪工具

译注1:post-mortems,事故分析,又称事故复盘。当任何生产系统发生严重停机或类似事故时,所涉及的人员都必须写一份事故分析文档。文档描述事故,包括标题、摘要、影响、时间表、根本原因、什么工作/ 什么没有和行动项目。文档的重点是问题本身,以及如何在未来避免他们,而不是针对人或分摊责任。

查看英文原文: Post-Mortems Trends and Behaviors

2017-12-03 18:001350

评论

发布
暂无评论
发现更多内容

数字化转型困局?华为云提供多款解决方案助力制造业企业上云加速转型

与时俱进的时代

NCCL源码解析②:Bootstrap网络连接的建立

OneFlow

人工智能 深度学习

一文吃透Arthas常用命令!

程序员大彬

Java JVM

如何使用文件传输协议ftp,教你使用文件传输协议命令行

镭速

趣谈之什么是 API 货币化?

API7.ai 技术团队

api 网关 APISIX api 货币化

历史性的时刻!华为云跨端、跨框架开源组件库项目 OpenTiny 正式升级 TypeScript,10 万行代码重获新生!

英勇无比的消炎药

开源 前端 UI组件库

多库多表场景下使用 Amazon EMR CDC 实时入湖最佳实践

亚马逊云科技 (Amazon Web Services)

Java

成立数科公司之余,央国企推进数智化转型还需要底座支撑

用友BIP

时序数据库能做什么|用 GreptimeDB 进行程序员键盘行为分析,最高频按键竟然是它

Greptime 格睿科技

云原生 时序数据库 数据库·

翻过三座大山:MatrixOne从 NewSQL 到 HTAP 分布式架构演进

MatrixOrigin

分布式数据库 MatrixOrigin MatrixOne 架构升级

码头风云——5G降临

白洞计划

5G 智慧码头

BUFF NETWORK:去中心化衍生品交易的未来

股市老人

什么是安全沙箱技术?如何保护用户隐私和系统安全?

FinFish

前端容器 小程序容器 安全沙箱 小程序安全沙箱

Java概述与基础知识

timerring

Java

谈谈现在编程行业的热门话题| 社区征文

魏铁锤

三周年征文

数据散、管理难和上云难,看华为云解决制造业数字化转型难题

与时俱进的时代

iOS SKAN 4.0 时代的广告追踪优化:掌握隐私友好的营销策略

37手游iOS技术运营团队

SKAdNetwork SKAN IDFA ATT App Tracking Trans

AI时代要用俄罗斯套娃思考模式

FN0

AIGC

架构师应该具备的特质

agnostic

架构师

StarRocks 3.0 新特性介绍

StarRocks

c++ 数据湖 #java 数据库· 大数据‘’

打卡智能中国(三):一位水厂文员的多重身份

脑极体

云计算

四川农信:与先进科技融合,更好服务广大用户|客户之声

OceanBase 数据库

数据库 oceanbase

ChatGPT会在三年内终结编程吗?| 社区征文

梦笔生花

程序员 ChatGPT 三周年征文

Django笔记六之外键ForeignKey介绍

Hunter熊

Python django 外键 ForeignKey

【分布式技术专题】「单点登录技术架构」一文带领你好好认识以下Saml协议的运作机制和流程模式

洛神灬殇

分布式 SAML SSO 单点登录

DevOps infra | 互联网、软件公司基础设施建设(基建)哪家强?

laofo

DevOps 研发效能 持续交付 infra 平台工程

Kubernetes 本地持久化存储方案 OpenEBS LocalPV 落地实践上——使用篇

江湖十年

k8s 后端 #Kubernetes# Go 语言

新晋 Committer 也有 “产学研联动”?速来围观不同视角共建 IoTDB 社区的故事!

Apache IoTDB

IoTDB Apache IoTDB

“程序员”即将失业 | 社区征文

六月的雨在InfoQ

程序员 ChatGPT GPT-4 三周年征文

AI日课@20230409:对话式用户界面

无人之路

ChatGPT

前端工程化实战:React 的模块化开发、性能优化和组件化实践

兴科Sinco

性能优化 前端工程化 React Native 前端模块化 组件化开发

事故分析的趋势和行为_DevOps & 平台工程_Manuel Pais_InfoQ精选文章