哎呀，系统“挂了”！——这是能说的吗？

近年来，多家知名互联网公司遭遇的软件系统故障，导致服务中断、数据丢失，这不仅影响了用户体验，甚至给企业带来直接或间接的经济损失。这些事件促使整个行业开始深刻反思，服务提供商、用户和其他利益相关者都在寻求改进现有技术和流程的方法。

如果线上可靠性工程出现问题，那么前期在应用产品设计、研发测试、发布变更等环节的所有投入都可能变得毫无意义。高质量的线上可靠性工程不仅能够减少故障发生的概率，还能够在故障发生时快速恢复服务，成为企业的核心竞争力之一。

鉴于此，我们策划了「哎呀，系统“挂了”」的圆桌讨论活动，旨在探讨不同规模的公司在稳定性可靠性方面面临的挑战及应对策略。

我们也在即将于 10 月 18 -19 日召开的 QCon 上海站策划了【线上可靠性工程】专场，将邀请不同公司的稳定性技术专家，分享他们在各自的业务场景中的可靠性/ 稳定性保障的实践经验，共同探讨线上可靠性工程的问题的解决思路。目前是 8 折购票最后优惠期最后 2 天，感兴趣的同学抓紧机会。

内容涵盖

不同规模的公司，稳定性和可靠性的关注点会有所不同吗？
“低级错误”带来的故障不少，这是能忍的吗？
在系统出现故障时，如何与用户进行有效沟通并保持透明度？
在处理系统故障时，如何推进跨技术团队之间的有效协作？
展望未来，稳定性和可靠性工程将面临哪些新的机遇和挑战？

直播回放👇

https://www.infoq.cn/video/WyLQrNEAwNExliKAHfdd

更多精彩内容，欢迎持续关注 10 月 18-19 日的 QCon 上海站，届时，几位老师将带来如下分享：

演讲主题：AI 驱动下的可观测平台架构升级实践

主要介绍携程对内部可观测平台进行架构升级的工程实践，涵盖 Metric 和 Logging 数据进行统一治理、为 AIOPS 落地提供数据和工具支撑以及云平台团队通过使用 AI 工具来提升平台运维效率的真实案例，希望能给大家带来一些帮助。

演讲提纲

1. 携程可观测性平台现存问题

监控指标只增不减
日志场景只增不减
非关键的指标占用大量的计算存储资源，核心指标的实时性得不到保障
各类监控工具烟囱林立，资源没有打通，无法统一治理

2. 数据治理实践

Metrics 数据治理
Logging 数据治理
统一监控 Agent 落地实践

3. 升级架构助力 AIOPS 落地

通过物化视图等技术实践，提升数据时效性
通过分层存储技术将数据冷热分离, 降低丢失率，提升数据可靠性
通过建设数据质量度量工具，提升数据准确性

4. 实践案例与展望

使用 AI 工具来提升平台运维工作效率的案例
可观测平台架构升级的问题总结和未来展望

演讲亮点

可观测性平台架构升级的实际案例，重在实践
AIOPS 落地的前置依赖

实践痛点

监控领域随着时间推移，会产生大量的老旧系统、老旧数据，相关遗留问题，也不是仅靠一次架构升级可以完全解决，需要持续投入精力做治理；
如何与业务实际需求结合，不断调整技术方案和需求适配，保障最核心的链路；
可观测性数据的价值挖掘，数据实时性和准确性需要放在第一位

听众收益

主流的监控告警、可观测性工具选型
了解监控和日志数据持续膨胀的治理方案
AIOPS 依赖的可观测性数据集质量保障体系
AI 工具如何协助处理琐碎的日常运维工作

演讲主题：蚂蚁故障应急全流程体系构建及应用实践

主要介绍蚂蚁的故障应急体系，通过实际的故障案例来简要介绍故障定义、组织阵型、平台能力、应急流程、应急评价等内容，并分享 AIOPS、LLM 大模型等能力在应急定位中的落地情况，以期能够回答业务稳定性保障要“做什么”、“谁来做”、“怎么算做得好”等问题，希望能给大家带来一些新的保障思路。

演讲提纲

1. 引子：一个真实的线上故障

是怎么发现的？
是怎么定位根因的？
是怎么止血的？
是怎么复盘的？

2. 蚂蚁故障体系构建

故障的定义、分类，以及对应的平台能力和评价指标
故障数据如何驱动日常稳定性保障工作的开展和能力演进

3. 蚂蚁应急体系构建

应急的目标和各阶段的数据指标定义，组织阵型设计和对应的评价指标
应急各阶段的目标和平台能力支撑

4. 一个线上故障的全生命周期

从故障定义、故障注入、故障发生、故障发现、故障响应、故障定位、故障止血、故障复盘全生命周期进行详细的分析，并尽可能多的展示实践效果

5. 未来已来

AIOPS 助力应急定位快速发现故障原因的方法
通过 LLM 加速故障复盘及 ACtion 跟进

实践痛点

SRE 团队与开发团队、质量团队在稳定性保障事项中的目标、分工、合作方式，会因各公司的组织结构差异而有非常大的不同，在落地的过程中难免会有一些冲突
故障应急的根因定位能力非常依赖公司的基础设施基建，AIOPS 和 LLM 在落地的过程中会不可避免的遇到定位准确率低、定位结果方差大的问题

演讲亮点

以业务稳定为中心的、以风险事件及线上故障数据为驱动的、以 SRE 能力提升和平台能力演进为路径的技术风险整体防控方案
AI 大模型在应急根因定位、应急快恢决策、应急 Action 跟踪等方面的能力实践和未来展望

听众收益

了解蚂蚁集团风险事件和线上故障管理的设计思路及现有能力
了解蚂蚁集团应急全流程的设计思路、平台能力、机制流程
了解典型故障应急的全流程应对及处理方案
探索 AI 大模型能力如何落地到故障应急领域

演讲主题：全球网络环境下的用户体验优化实践

除了从架构、容灾、监控的角度提升可靠性之外，用户体验的波动也影响着用户对线上系统稳定性和可靠性的感知。在全球网络环境下，云服务商众多，网络延迟多变，成本计算复杂，影响因素难料，单纯依赖人的选择应用的部署节点，已经不能完全满足业务在用户体验方面的要求。

腾讯游戏 SRE 团队，利用 AIOPS 能力，从数据工程角度，通过分析全球网络数据，云服务商数据，用户访问模拟等方式，建立一套用户体验评价体系，找到了一种相对通用的全球网络环境下的用户体验优化实践方案，为海外业务发展提供关键决策。这是一套实践方案不仅适用于游戏行业，也同样适用于其他互联网行业的用户体验优化方案。

演讲提纲

1. 真实的全球网络环境到底什么样？

复杂的全球网络线路
每天都可能会变化的路由
非技术原因网络波动
断崖式的网络质量变化

2. 腾讯游戏全球网络环境优化实践

游戏战斗服智能选择场景介绍
如何通过数据模拟玩家行为？数据采集匹配重现迭代最优解
如何通过数据工程验证效果？增加测速服务器模拟匹配模拟对战

3. 非游戏业务的应用实践

此方法的本质
通用流程
定制与适配

4. 经验总结和未来展望

在业务逻辑上寻找优化点
降低成本，提升通用性

实践痛点

数据存储与分析成本成本高
分析结论在实际应用中的时效性

演讲亮点

基于业务实际数据的真实实践案例
用数据工程的方法改善玩家体验

听众收益

了解全球网络现状
SRE 团队的 AIOPS 能力需要具备哪些基础设施
学习数据模拟和数据验证工程的实践方法
游戏体验优化方案如何应用在非游戏业务

演讲主题：B 站轻量级容灾演练体系构建与业务实践

本次分享将从 B 站的容灾演练体系构建入手，逐步拆解体系，带大家深入了解 B 站在容灾演练上的组织阵型搭建模式、运营机制设定方法以及容灾产品能力建设，最后通过结合业务实践为大家展示 B 站是如何通过容灾演练体系来支撑业务多活、大促保障和研发质量交付等多个环节的，希望能为大家带来一些稳定性保障的新思路。

演讲提纲

1. 新形式下的稳定性挑战

分析当下基础设施层故障频发、业务高可用手段失效的原因
如何破局？主动出击，以演带练

2. 轻量级容灾演练体系构建

组织阵型搭建：横向容灾演练推进小组、基础架构
运营机制流程：如何围绕演练风险分，通过容灾演练专项牵引基础架构和业务 BU，有效推进演练工作
容灾产品能力：从混沌引擎能力演进、容灾场景定义、演练全生命周期管理、演练可视化、智能演练防护来详细介绍容灾相关产品能力

3. 业务场景实践

业务多活场景：借助容灾演练能力，确保业务多活的有效性
活动大促场景：活动场景的容灾演练点快速挖掘和针对性演练
需求交付场景：在常态化的需求交付阶段，助力质量保障部门快速完成服务依赖演练

4. 总结展望

总结 B 站的实践效果和过程反思
未来如何通过 LLM 挖掘更多的容灾场景，提升容灾演练的效率

实践痛点

如何有效的定义和模拟容灾演练场景
如何组织多 BU 和多职能角色进行项目落地

演讲亮点

轻量级的容量演练体系设计思路和实践参考

听众收益

了解 B 站如何轻量级在组织内部常态化实施容灾演练
了解 B 站容灾演练的技术演进路线、组织搭建模式和运营机制流程，掌握体系化的解决方案

会议推荐

InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会，覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体，内容涵盖当下热点技术（AI Agent、AI Infra、RAG 等）和传统经典技术（架构、稳定性、云原生等），侧重实操性和可借鉴性。现在报名可以享受 8 折优惠，单张门票立省 960 元（原价 4800 元），详情可联系票务经理 17310043226 咨询。

创作场景

哎呀，系统“挂了”！——这是能说的吗？

内容涵盖

直播回放👇

演讲主题：AI 驱动下的可观测平台架构升级实践

演讲主题：蚂蚁故障应急全流程体系构建及应用实践

演讲主题：全球网络环境下的用户体验优化实践

演讲主题：B 站轻量级容灾演练体系构建与业务实践

会议推荐