InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

非指责性事后调查

  • 2014-08-15
  • 本文字数:1303 字

    阅读完需:约 4 分钟

非指责性事后调查

对于生产事故的非指责性事后调查日益被当成组织程序中不可或缺的一环。 Travis CI Mathias Meyer 分享了非指责性事后调查 Blameless post-mortems)是如何彻底地影响了他。InfoQ 趁此机会对诸如 Etsy、GitHub 和 Chef 这样的组织是如何进行事后调查的进行了探讨。

非指责性事后调查聚焦于从事件当中吸取教训。John Allspaw 这样写道

(在 Etsy,)我们希望从学习的角度去看待失误、错误、过失、疏忽。对服务中断和生产事故采取非指责性事后调查是其中的一环。

Mathias Meyer 是这样描述非指责性事后调查的:

(……)一个所有相关方都必须出席的会议。人们在会议上汇集对意外事件发生期间和之后的状况和看法。

其主要目标是找到事故是什么、如何及为何事故会发生。调查必须得出可操作的措施,以防止类似事情重复发生。

非指责性事后调查假设人性总的来讲是有好意的。如果不秉持这样的假设,组织就会试图指责某人。如果是这样的话,技术人员为了躲避惩罚,会隐藏一些信息,那么在未来类似的事情一定会再次发生。如 John Allspaw 指出的,组织有必要“平衡安全性和问责制”:

我们相信,在 Etsy 这个细节对于提高安全性是极为重要的。

Mathias Meyer 认为“人为错误”这个概念应该被摒弃:

它对于找出问题和解决方案没有什么帮助。它假设出问题的、以及需要解决的是在组织中的人。(……)在(复杂)系统中人们触发的行为是无人预见也不可能预见的。

在几个案例中, GitHub 今年早些时候的一次 DNS 宕机说明了在复杂系统里引发一连串的故障是多么容易的一件事。GitHub 发布了一份事后调查,显示一次错误的 DNS 变更导致了文件服务器故障,进而导致路由层故障。报告指出了基础架构上的几个弱点和 6 个补救措施,没有一个是与导致该次宕机的那个行为相关的。

在另一个案例中, Chef 以非常公开且非指责性的方式进行了事后调查,并通过 Google Hangout 进行了广播

确保补救措施的执行是至关重要的,否则整个过程就会失去它的目的。在 Etsy 有一个政策:这些事情“胜过工程师手头的任何其它工作,包括交付产品。”

根据InfoQ 的报道,Etsy 开发了开源的 Morgue ,这是一个记录事后调查的应用。一份 Morgue 报告包含了与事故相关的所有信息,回答了事故是什么、如何及为何事故会发生,并包含了补救措施。该报告中的信息来源广泛,包括 IRC 日志、论坛讨论或监控图表。

一份 __Morgue__ 事后调查报告,摘自该项目主页的案例

Mathias Meyer 发现非指责性事后调查对他本人和他的团队都有深远的影响。那么,你也做(非指责性的)事后调查吗?它对你和你的组织有什么影响吗?

【译注】

Post-mortem 原意指尸体解剖,引申为事后调查。Morgue 原意指停尸房、太平间,在译文中做不翻译处理。由此也可以看出引导事后调查的人员对待故障的态度:既然它(系统)已经”死”了,那么就做一个彻底的根源调查,而非头痛医头脚痛医脚,随便找个替罪羊了事。后一种态度是非常司空常见的。

查看英文原文: Blameless Post-Mortems


感谢赵震一对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2014-08-15 23:241310

评论

发布
暂无评论
发现更多内容

TiFlash 源码阅读(九)TiFlash 中常用算子的设计与实现

PingCAP

#TiDB TiDB 源码解读

10CSS动画案例,学会了惊艳所有人

大师兄

CSS 前端 9月月更

DataLeap的Catalog系统近实时消息同步能力优化

字节跳动数据平台

大数据 kafka 数据治理 实时同步 数据研发

工赋开发者社区 | 从零开始的新跨平台浏览器:Ladybird 正式起飞

工赋开发者社区

JAVA开发培训哪家比较好

小谷哥

常见堡垒机小知识汇总-行云管家

行云管家

安全 IT 堡垒机 IT运维

QA如何高效参与技术设计评审

转转技术团队

质量管理 测试 技术设计质量把控

面了个阿里拿38k出来的,让我见识到了基础顶端

程序知音

Java java面试 后端技术 秋招 八股文

融云云盘,不止于存储

融云 RongCloud

云盘 云存储

人工智能、机器学习与深度学习的区别在哪里?

Finovy Cloud

人工智能 深度学习

区块链追溯:让冷链物流“热”起来!

旺链科技

区块链 产业区块链 企业号九月金秋榜 冷链物流

SQL为什么历经半个世纪却经久不衰?

雨果

sql

参加Java培训能学到开发技术吗?

小谷哥

数据湖管理及优化

阿里云大数据AI技术

大数据 spark 数据湖 企业号九月金秋榜

新书上市|一位家长的忠告:长大后不成才的孩子,父母都忽视了这个点!

图灵教育

育儿 教育 脑科学 基因

【微信小程序】页面导航详解

陈橘又青

9月月更

信用卡市场发展洞察:浦大喜奔APP探索大零售融合经营体系

易观分析

金融 银行 信用卡

年轻一代程序员:社牛、不卷、玩开源

腾源会

开源 腾源会

易观千帆 | 2022年7月银行APP活跃用户规模盘点:江浙沪城商行表现亮眼

易观分析

App 金融 银行

自学Java和java培训哪个好就业

小谷哥

中国的时区为什么是Asia/Shanghai,而不是Asia/Beijing?

Sher10ck

新书上市|一位家长的忠告:长大后不成才的孩子,父母都忽视了这个点!

图灵社区

育儿 教育 脑科学 基因

限时开源!阿里P8架构师手写Spring全家桶核心知识学习笔记

了不起的程序猿

Java spring 编程 程序员 Spring全家桶

ApacheCon Asia 2022 精彩回顾 | 如何让更多人从大数据中获益?

Apache DolphinScheduler

Java进阶(二十八)SimpleDateFormat格式化日期问题

No Silver Bullet

Java 9月月更

Java之static关键字的应用【工具类、代码块和单例】

Fire_Shield

static 9月月更 实际应用

MobTech短信验证ApiCloud端SDK

MobTech袤博科技

API 短信验证

技术分享| 分布式系统中服务注册发现组件的原理及比较

anyRTC开发者

音视频 分布式系统

2022年8月中国网约车领域月度观察

易观分析

网约车

过等保是浪费钱吗?一定要过等保吗?

行云管家

等级保护 过等保 等保2.0

Java培训学生可以学到哪些开发技术呢

小谷哥

  • 扫码添加小助手
    领取最新资料包
非指责性事后调查_DevOps & 平台工程_João Miranda_InfoQ精选文章