在QCon北京2018大会上,来炜讲师做了《从标准到落地:数据驱动的风险防范体系建设》主题演讲,主要内容如下。
演讲简介:
运维工作中,通常会通过制定标准来预防风险、沉淀经验以及和周边团队形成共识。但常出现的情况是标准的影响会随着时间而减小,甚至被遗忘抛弃。一个较好的解决办法是将标准落地到各个平台,由平台来保证标准的执行。但这也有一些难以解决的问题:
标准有控制不了的部分:有一部分风险是标准无法控制的,比如一个业务线频繁的出现上线回滚,但标准并不能规定上线不能回滚或回滚的比例,这样的业务线我们如何驱动他们自省?
标准有弹性的部分:标准中通常也有一些需要人为拿捏的部分,比如变更在灰度阶段的暂停检查时长,通常是越长越安全,但平台通常只能约束到一个固定值。如何驱动大家做更充分的检查呢?
标准有被打破的特殊情况:比如标准规定禁止在业务高峰期变更,但由于紧急的问题修复或业务需要,又必须临时批准部分操作,这样的操作风险如何控制?
缺少风险的全局视图:通常SRE在push业务线做标准改进和控制的时候都只能针对一些局部进行推进,同时业务线的负责人也看不到全局的情况和风险的严重程度,因此推动较为困难,如何破解?
基于以上问题,滴滴建立了一套完善的风险量化体系,通过自动采集用户的平台操作数据、运维数据并自动计算量化出每个业务线的运维风险,落地到一个具体的分数,最终形成排名和竞赛机制,以达到促进标准长效执行的目的。本主题将重点介绍滴滴如何建设这套运维风险量化体系并成功运转长期有效降低业务运维风险的实践,同时还将分享建设和落地这套风险量化体系的实践心得。
听众受益
给运维中有类似风险控制困难的业务提供一个全新的解决思路;
了解滴滴的风险量化方式、数据计算方式等细节。
讲师介绍:
来炜
滴滴出行 技术总监
来炜,滴滴出行技术总监,CCF TF 系统运维 SIG 执行主席,滴滴工程委员会和开源委员会委员,国内最流行的开源企业级监控系统 Open-Falcon 的创始人和社区负责人,致力于推动建设开源软件生态,专注于高可用架构、运维自动化、云服务、容器化等方向。
完整演讲 PPT 下载链接:
https://qcon.infoq.cn/2018/beijing/schedule
评论