在QCon上海2018大会上,郑焱讲师做了《百度信息流产品动态降级以及故障自愈实践》主题演讲,主要内容如下。
演讲简介:
百度 APP 信息流产品做为百度公司的核心产品,线上迭代频繁,半年流量大规模增加,晚高峰期容量风险较大,2017 年因高峰期切流量出现数次容量过载的问题,造成用户拒绝,影响用户体验 ;随着业务的稳定性要求越来越高,如何在资源有限的情况下,通过自动化的方式,在规避容量过载风险的情况下,尽可能的缩短故障的止损时间,是我们必须考虑解决的实际问题。本次分享,主要是讲述资讯流产品在高峰期故障自愈的一些实践,从产品以及技术层面上介绍一下自动化降级方案设计,以及自动流量调度和自动降级联动止损在资讯流产品的实践。
主要内容
百度故障自愈框架简介
结合业务系统,设计产品的降级策略
流量自动降级相关实践
流量自动调度结合自动降级解决高峰期单机房故障止损实践
听众受益
故障自愈框架实践
产品系统降级方案设计
流量调度和降级联动止损在实际产品中的落地实践
讲师介绍:
郑焱
百度 资深运维工程师
百度共享技术平台部资深工程师,百度稳定性工程团队核心成员。2009 年入职百度,曾负责百度搜索,地图,糯米等核心产品的业务运维和架构优化工作;当前做为百度 APP&feed 资讯流业务稳定性方向的负责人,关注于稳定性工程建设,故障自愈,架构优化等多个技术方向。
大型互联网产品的业务系统,一个非常大的挑战是如何在一路狂奔的路上保证给用户提供可靠的服务。对于一个时刻在变化的系统,你永远不知道蝴蝶轻轻的扇了一下翅膀,会在哪天引起了一阵无法抵御的暴风雨。而我所在团队最近几年的工作,一直尝试在用工程化的方法,定义大型互联网产品的可用性建设,通过自动化和智能化的手段跟业务的需求结合落地,以减少故障的发生的概率,并尽可能缩短用户感知异常的时间。
工作之余,我比较喜欢约上朋友一起踢足球,这么多年,基本保持一周一场比赛。最近几年,也在学习一些基本的投资知识,欢迎大家跟我交流。
完整演讲 PPT 下载链接:
https://qcon.infoq.cn/2018/shanghai/schedule
评论