
2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。
小米 手机 IoT 团队 SRE 负责人付冰尧已确认出席并发表题为《稳中求胜:小米米家稳定性保障与故障应急实践》的主题分享,通过米家历史故障案例,介绍近 2-3 年米家是如何通过完善应急保障体系和运维自动化平台,逐步提升业务稳定性,侧重分享业务架构优化、基础组件升级、质量加固经验以及故障预案的制定与实施。

付冰尧在运维领域积累了较丰富经验。曾任职世界 200 强央企,负责 OA、邮箱、SAP 部署实施运维。后担任闪送运维总监,主导公司基础设施软件架构规划与实施。在小米手机部 SRE 团队,推动运维标准化、自动化,实现降本增效,还负责小米相册百 PB 级数据迁移项目。拥有多年 DevOps 开发经验,掌握 Golang、Python 等技术栈,研究方向聚焦云原生与软件工程管理。他在本次会议的详细演讲内容如下:
演讲提纲
1. 小米 IoT 业务及架构介绍
业务概况
架构详解
2. IoT 业务质量保障遇到的问题和挑战
用户和设备双侧稳定性保障难题
用户对故障的低容忍与应对压力
3. SRE 的故障应急体系的建设与落地
预警机制
预案管理
关键服务的故障自愈
应急指挥 &协作机制
复盘改进
4. 应急案例分享
您认为,这样的技术在实践过程中有哪些痛点?
用户和设备双侧稳定性能力保障能力的建设
自动化运维能力有待提升,后续如何通过 AIOps 能力增强业务稳定性
演讲亮点
全球领先平台的独家经验分享,米家作为全球最大的消费级物联网平台,首次深度揭秘其在 IoT 业务质量保障方面的宝贵经验
故障应急体系建设的方法论结合具体案例,系统性的介绍如何全面提升业务质量
听众收益
深入了解 IoT 业务特性与质量保障精髓
掌握系统性提升业务质量的方法论
探索 IoT 业务与运维系统的平衡之道
除此之外,本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。
目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。

为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088
评论