写点什么

拥抱故障,你可以吗?

  • 2013-04-18
  • 本文字数:1319 字

    阅读完需:约 4 分钟

4 月 14 日,百度工程师 @肖平 _Jacky 发布了一条微博,立刻引来大量的评论和转发,阿里、腾讯、百度、新浪等公司的运维工程师纷纷发表了自己的观点,微博内容如下:

看 google,twitter 的运维经验,其中强调一点#拥抱故障 (事故)#,不知道你们的运维团队是怎样#拥抱故障#的。出现故障时,整个团队的第一反应是要兴师问罪,还是集体齐心修复问题,又如何真正做到拥抱故障呢? @南非蜘蛛 @守住每一天 @sunli1223 @幸福山大 @wilbur 井源 请赐教。

讨论大致分为了几个部分:

  1. 遇到故障时的处理方式
  2. 故障事前与事后的工作
  3. 故障与 KPI 的关系
  4. 在故障中学习成长

新浪的高级运维工程师 @守住每一天表示,在遇到故障时应该做到沉着冷静,着急容易引起更多的问题,按照故障流程处理,判断故障级别并通知相关人员,一切以保证业务为最高优先级。待故障过去之后,再来分析故障的原因:

有成熟的模板,需要写明深层的原因,与改进建议,完成时间点。其实有故障对平台来说也算半个好事吧。其实最难的地方就是原因,有些不想写实际原因,这个可能会导致问题复发的。

事后分析的重要性不言而喻, @运维老周将其提升一个高度——“故障后的深入分析做得好坏,最能体现一个运维团队的责任心意识。”支付宝 @灵魂黑客 _ 舵主的一句“要做好故障分析而不是故障责任分析,同一问题不要再犯”道出了大家的心声,故障分析会之后,就应该做到避免同类故障再度发生,19 楼的 @幸福山大为大家分享了他眼中的预案:

这是预案的处理,预案不仅仅是故障预案,预案需要充分评估系统的设计和风险,需要分析各层依赖,需要考虑各种情况下面的应对方式,需要各方资源来协作,预案也需要不断地演习验证和改进,预案做好比故障更难。

在很多公司,故障都会与绩效挂钩,谈到故障,自然也免不了谈谈 KPI。去哪儿网的孙立就表示:

我们有统一的故障处理流程。出现故障第一步是要快速修复故障,把损失降到最低。故障处理完毕,需要参与的所有人一起 review,分析原因,监控,怎么避免这类问题等等。不能容忍的是同一个故障老出。处理故障的能力可以和 kpi 挂钩。

除了故障处理能力,故障本身也会和 KPI 有关联,故障 KPI 往往直接由运维团队承担,但其实开发团队也该来分担一部分压力,大家都注重线上故障。土豆网的 @老黄就认为这是“公司根儿上的问题”,不容易轻易被改变。公司越大,大家则越难真正“拥抱故障”。

谈完 KPI 这么沉重的话题,再来谈谈成长,大家都认同故障是个学习的好机会,从一次故障中获得的经验,也许能比得上日常工作中的无数个日日夜夜,在发生故障时,越是冲在第一线的人,就越可能收获更多的东西。 @幸福山大在微博中说到:

每次故障都是宝贵的改进机会。故障分故障前、中、后三个阶段,故障前预案充足,快速发现;故障中快速定位,恢复,止损,通告等;故障后深入分析,整理,回顾,改善预案,分享等。经常碰到故障的人往往成长的更快。

@CodeBox- 腾讯为大家形象的描绘了一幅故障处理的人物速写:

默默解决故障的人、站着说话不腰疼的人、搅混水逃避责任的人、不懂装懂搞无理头的人、追究责任的人、事后诸葛亮的人,最后还有把总结邮件弄成 CCTV 表彰晚会儿的人。

亲爱的读者朋友,您会对应上述哪种人呢?您能否做到“拥抱故障”呢?不妨来分享一下您的故障处理经验吧。

2013-04-18 00:543028
用户头像

发布了 135 篇内容, 共 60.1 次阅读, 收获喜欢 43 次。

关注

评论

发布
暂无评论
发现更多内容

websocket底层原理

linux大本营

nginx HTTP websocket 通信协议 web服务器

Android C++系列:函数返回值注意事项

轻口味

c++ android 三周年连更

智能感知编码优化与落地实践

百度开发者中心

人工智能 视频 百度智能云

2023年第十二届数据技术嘉年华(DTC)资料分享

墨天轮

数据库 oracle 云原生 智能运维 国产数据库

行业分析| 视频监控——AI自动巡检

anyRTC开发者

人工智能 音视频 视频监控 自动巡检

open3d将pcd存数据库

linux大本营

sqlite 数据库 存储 :MySQL 数据库

ubuntu如何安装Json解析库Reader

linux大本营

ubuntu JSON库 reader

基于STM32设计避障寻迹小车

DS小龙哥

三周年连更

怎样判断户外LED显示屏质量是否达标

Dylan

媒体 广告 户外LED显示屏

AITO问界M5:最安全、智能的座驾

Geek_2d6073

0Ω电阻在PCB板中的5大常见作用

华秋PCB

电路 元器件 PCB PCB设计 电阻

Ts中string、number和any等类型 不能当做索引用,怎么处理?

肥晨

三周年连更

linux下怎么拉取远程的代码并且合并到本地,保证不冲突

linux大本营

git Linux

Mac无损音乐播放器:Audirvana for Mac中文

真大的脸盆

Mac Mac 软件 音乐播放 音乐播放器

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

飞桨PaddlePaddle

人工智能 计算机视觉 目标检测 百度飞桨

目前江西省等级测评公司有几家?都在南昌吗?

行云管家

江西 等保 等级保护 等保2.0

软件测试/测试开发丨自动化测试之读取配置文件

测试人

软件测试 自动化测试 测试开发

用C语言实现,终端输入1.2.3.4/32,解析输出unsignedint类型的1.2.3.4和32

linux大本营

C语言

给广场舞大妈讲讲什么是大语言模型!

FN0

AIGC

canvas-绘制一个柱状图

格斗家不爱在外太空沉思

CSS canvas 三周年连更

递归算法

linux大本营

递归 数据结构与算法

如何在makefile中链接Json解析库Reader

linux大本营

json makefile reader

火山引擎DataLeap:在数据研发中,如何提升效率?

字节跳动数据平台

运维 数据研发 企业号 4 月 PK 榜 任务模板

免费云堡垒机用哪个牌子软件好?包含哪些功能?

行云管家

云计算 网络安全 IT运维 云堡垒机

HummerRisk V1.0.1:k8s检测扩充、批量删除及修复bug

HummerCloud

开源 云原生 云安全 云原生安全

如何写出CPU友好的代码,百倍提升性能?

阿里技术

cpu 代码优化

写一个回调函数

linux大本营

回调函数 C++

刘浩:当谈到RTO < 8s时,OceanBase究竟在说什么?

OceanBase 数据库

数据库 oceanbase

C语言sqlite3,实现判断一个数据库存不存在,不存在就创建

linux大本营

数据库 C语言 sqlite3

知名直播App被苹果商店下架,或涉及侵权问题

HIFIVE音加加

ios iphone 软件开发

拥抱故障,你可以吗?_DevOps & 平台工程_丁雪丰_InfoQ精选文章