写点什么

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon 北京

  • 2025-04-05
    北京
  • 本文字数:1744 字

    阅读完需:约 6 分钟

大小:950.95K时长:05:24
“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


美图高级运维经理石鹏已确认出席并发表题为《“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践》的主题分享,结合美图 SRE 团队的实践经验,深入探讨故障应急的各个环节,并由此展开给大家呈现一个典型的“故障生命周期”。演讲将沿着这个脉络对故障的本质和常见原因进行剖析,对可观测性建设、灾备建设、应急预案及演练、故障复盘等日常高频工作场景进行讲解。此外,也将对 AIOps、LLM Ops 等前沿的技术做一些探讨和交流。



石鹏从业十余年,一直从事运维相关的工作。 2016 年加入美图公司,现任美图 SRE 负责人,目前整体负责美图公司线上服务的稳定性保障工作。 曾多次参与或主导过美图公司多项基础设施、运维架构的调整和改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验积累和行业输出。 致力于推广 SRE、稳定性运营相关的理念及实践,编著有「SRE 系统建设指南」图谱,参与过业界多个 SRE、DevOps 相关案例集/期刊/标准/白皮书的编纂或供稿。他同时还是业界多个技术峰会的分享嘉宾、金牌讲师或出品人,SRE 精英联盟成员,中国信通院「稳定性保障实验室」认证专家、关键技术工作组-技术监督委员会委员兼应急工作组组长。他在本次会议的详细演讲内容如下:


演讲提纲

1. 引子:你是否会“谈故障色变”,遇到故障慌不慌,为个啥?

2. 洞若观火:洞察本质,掌握规律

  • SRE 的核心职责 与 企业发展的关系

  • 构建「大框架」:可靠性工程的「全生命周期」

  • 构建「大框架」:稳定性运营的「全景图」

  • 建立对故障的正确认识

  • 稳定性工作的度量 和 工作目标

3. 未雨绸缪:体系建设,主动出击

  • 体系化建设清单

  • 可观测性建设

  • 高可用建设

  • 应急预案及预案演练

  • SRE 工具箱建设

4. 指挥若定:有章可循,有条不紊

  • 原则和建议

  • 流程机制约定

  • 故障现场指挥

  • 常见故障场景 及 常见手段

  • 非常规模式 及 处置方法

  • 血泪案例分享

5. 复盘改进:吃堑长智,举一反三

  • 工作清单复盘

  • 故障复盘:从“黄金三问”到“深度思考”

  • 如何进行故障的定级、定性、定责?

  • 周期回顾 和 数据洞察

6. 补充总结 & 未来展望

  • 故障管理 之 体系化框架

  • 前沿技术探索及展望


您认为,这样的技术在实践过程中有哪些痛点?

  • “老生常谈”的几个需要平衡的问题及 SRE 所面临的典型困境

  • 稳定性建设的目标、业务高速迭代的效率诉求、公司在稳定建设方面可以投入的资源之间会存在矛盾

  • SRE 人手不足、工具建设不到位、忙于救火、疲于应付的恶性循环。破除这些困境,需要找到合适的切入点,方法也因时、因地不尽相同

  • 新技术的应用和落地:AIOps、LLM Ops 等新技术为故障应急带来了新的可能性,现在业界也有很多探索和实践。尤其是随着 DeepSeek 开源之后,有很多团队也在积极拥抱和尝试,但如何将这些技术真正应用到实践中,在落地过程中还有一些问题尚待探索和解决。

  • 业务系统、环境的复杂性,可能会带来一些“未知的未知”,这些会对故障应急带来非常大的挑战。


演讲亮点

  • 故障管理的流程化和规范化

  • 稳定性运营的持续改进


听众收益

  • 掌握故障应急的系统性方法:从故障的本质出发,系统性地思考和解决故障应急问题,而不是仅仅停留在“头痛医头,脚痛医脚”

  • 提升故障处理的实战能力:了解美图 SRE 团队在故障应急方面的实践,包括可观测性建设、高可用建设、应急预案制定与演练、故障复盘等实操性实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-05 17:006220

评论

发布
暂无评论

如何打造一款全球化的App?

故胤道长

硅谷 国际化 ios开发 Android开发 硅谷问道

大作业

瑾瑾呀

大作业-附件3

曾烧麦

产品训练营

源码分析-Netty: 并发编程的实践(二)

程序员架构进阶

源码分析 Netty 多线程高并发 28天写作 3月日更

最新版Swagger 3升级指南和新功能体验!

王磊

Java swagger

52条SQL语句性能优化策略,建议收藏

Java小咖秀

MySQL 性能优化 后端 MySQL性能优化

卡梅隆和他的《阿凡达》「Day 22」

道伟

28天写作

分布式事务

insight

分布式事务 3月日更

JDK动态代理的实现机制

xzy

Java 动态代理 原理分析

Docker 教程(二):Dockerfile

看山

Docker Dockerfile

面试官再问你优先级队列,请把这篇文章丢给他

Silently9527

Java 优先级队列 二叉堆

写代码这件事

ES_her0

28天写作 3月日更

用户行为分析模型实践(一)—— 路径分析模型

vivo互联网技术

大数据 数据分析 用户行为分析

大作业-附件1

曾烧麦

产品训练营

高并发HTTP请求实践

高性能架构探索

初识Golang之聊聊类型

Kylin

3月日更 21天挑战 Java转go Go 语言

通用中间件模型

型火🔥

架构 分布式 抽象 中间件 模型

优雅编程 | 24个Javascript代码优化技巧

devpoint

js 空值运算符 高级函数 模板字面量

架构师训练营-Web 攻击与防护

引花眠

架构师训练营 4 期

javascript中的Strict模式

程序那些事

JavaScript ES6 程序那些事

大作业-附件4

曾烧麦

产品训练营

Google面试题-怎样实现拼写纠错的功能?

Nick

数据结构 二分查找 数据结构与算法

架构师训练营 4 期 第11周

引花眠

架构师训练营 4 期

寻找被遗忘的勇气(十四)

Changing Lin

3月日更

容器引擎学习笔记

lenka

3月日更

jdk 源码系列之 TheadPoolExecutor

sinsy

jdk ThreadPoolExecutor

哈希吧,滚雪球学 Python 哈希表与可哈希对象

梦想橡皮擦

28天写作 3月日更

利用深度元学习对城市销量进行预测 | AAAI 2021论文解读

京东科技开发者

零售 预测

Hadoop之YARN的内部机制

hanke

大数据 hadoop 开源 YARN

大作业-附件2

曾烧麦

产品训练营

大作业-附件5

曾烧麦

产品训练营

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon北京_软件工程_QCon全球软件开发大会_InfoQ精选文章