在QCon广州2019大会上,宋斌讲师做了《美团一站式业务稳定性保障平台的 AIOps 实践》主题演讲,主要内容如下。
演讲简介:
美团即时物流业务,对于系统稳定性有极高的挑战。1. 峰值流量高; 2. 瞬间峰值大; 3. 业务链路长; 4. 线上到线上的业务复杂度高; 5. 故障敏感,影响履约完成率,造成赔付和客诉。过往的稳定性保障更多的靠人工运维,多种容灾手段的组合,这种做法既不闭环,也很难评估效果,出现问题更多是靠人工经验和慌乱中的各种尝试,不仅耽误时间而且业务损失也大。
经过一年多的探索,即时物流业务在稳定性保障方面逐步建立了全面可靠的自动化可运维的系统,全面覆盖系统各个链路和环节,并且在集团内部也推广到其他事业群使用。从过往的总结效果来看,在 AIOps 方面我们还只是围绕质量保障实践了一小步,当前以及未来也会挖掘更多的机器学习的能力,来提升准确率和召回率。
内容大纲:
业务稳定性保障平台如何建设;
实践过程中遇到的技术难点,以及如何结合算法来提升准确率;
做好技术运营和数据沉淀,极大的提升可用性;
故障预测和故障诊断的方法;
如何把故障诊断和故障容灾能力打通,以及如何产品化;
未来在机器学习方面如何持续探索。
讲师介绍:
宋斌
美团点评 到家事业群配送技术部 资深技术专家
期参与分布式系统架构、高并发系统稳定性保障相关工作。目前担任即时物流团队后台技术负责人。2013 年加入美团,参与过美团外卖 C 端即时物流体系的从 0 搭建,目前带领团队负责调度、清结算、LBS、定价等业务系统、算法工程平台、稳定性保障平台 Jarvis 等技术平台的研发和运维。最近聚焦 AIOps 方向,探索在高并发、分布式系统架构下,如何更好地做好系统稳定性保障。
完整演讲 PPT 下载链接:
https://qcon.infoq.cn/2019/guangzhou/schedule
评论