百度技术沙龙第79期回顾:百度智能运维的技术演进之路

近年来,随着大数据、人工智能、云计算技术的日渐成熟和飞速发展,传统的运维技术和解决方案已经不能满足需求,智能运维已成为运维的热点领域。同时,为了满足大流量、用户高质量体验和用户分布地域广的互联网应用场景,大型分布式系统的部署方式也成为了高效运维的必然之选。如何提升运维的能力和效率,是保障业务高可用所面临的最大挑战。

第79期百度技术沙龙,我们邀请了支撑全百度数十万规模服务器、在运维工具和平台研发方面经验丰富的百度云智能运维团队,从系统的体系架构设计和线上系统的高效运维出发,向大家介绍百度运维的技术演进之路。分享百度在AIOps、DevOps上的实战经验,并以百度统一前端接入(Baidu Front End, BFE)、数据库以及Redis三个具体系统为例,介绍百度在系统架构设计和变更、监控、故障处理和性能管理等贯穿线上系统生命周期的运维层面上,如何保证系统的高可用。

本期讲师介绍

  • 主题一:高可用性系统的架构与运维实践

    讲师介绍:王栋,百度智能云主任架构师,清华大学计算机系本科和硕士、北京大学计算机系博士。曾就职于Bell Labs和Google。2015年加入百度,主要负责百度云架构设计和AIOps在百度系统运维方面的落地工作。

    主题摘要:确保大型分布式复杂软件系统的可用性历来是一个严峻的技术挑战,具体而言,这种挑战一方面来自于系统的体系架构设计,另一方面来自于线上系统的高效运维,二者相辅相成。本次分享将从百度运维的技术演进切入,介绍百度如何从最初的手工操作为主发展到如今领先业界的AIOps实际落地;然后以变更管理作为一个典型的例子,阐述百度在实践DevOps方面的一些体会;最后,以百度统一前端接入(Baidu Front End, BFE)、数据库以及Redis为例,介绍保证线上系统高可用的实战经验。

  • 主题二:百度AIOps实践

    讲师介绍:哈晶晶,百度架构师,智能监控团队业务技术负责人,智能故障自愈方向技术负责人。2011年4月硕士毕业后入职百度,负责运维平台研发工作,先后负责服务管理、资源管理、变更管理、故障管理的业务分析和架构设计,在基础运维平台产品和智能运维解决方案层面积累了大量的经验。主要研究支持百度搜索、广告、FEED流等核心业务故障发现、定位和自愈解决方案,推进AIOps应用落地。

    主题摘要:百度运维经历了脚本&工具、基础运维平台、开放运维平台阶段,在2014年开始智能化运维的探索,并且围绕可用性、成本和效率方向的运维目标,在诸多运维场景落地。本次分享将以百度故障处理场景为例,介绍百度故障发现的异常检测、故障通告的智能报警合并、故障诊断阶段的多维度分析,故障止损阶段的自愈方案等,以及百度AIOps研发框架如何支持诸多运维场景的快速落地。

  • 主题三:大规模数据中心变更风险应对之道

    讲师介绍:杨涛,百度资深运维工程师,百度云运维平台负责人。2012年加入百度,先后负责过百度网页库存储、百度容器操作系统 Matrix 等业务。目前负责百度公有云和私有云运维平台的架构和研发工作,主要关注变更管理、容量管理、故障管理等方向。

    主题摘要:在大规模数据中心中,对生产环境的变更来自于各个方面,有机器类操作(重装、重启、初始化等)、机器环境变更(BIOS、内核、内核参数、基础库等)、服务变更(程序、配置、数据发布)、服务容量变更、服务操作等等。这些变更无论是自动化的还是手动的,任何一次变更都会带来服务稳定性风险。本次演讲会从具体的案例出发,介绍百度应对变更风险的防御机制演变及最佳实践。

  • 主题四:百度统一前端平台技术面面观

    讲师介绍:章淼,百度架构师。2004年清华大学计算机系博士毕业。1997年至2006年在清华大学从事互联网协议和网络基础架构的研发。2006年至2012年在多家公司从事用户产品的研发工作。2012年加入百度,一直从事百度统一前端(BFE:Baidu Front End)的研发。热心代码和研发质量的提升,是百度Python和Golang两个编程语言规范委员会的成员;热心教育,在百度内组织“代码的艺术训练营”,传播正确的软件工程理念。

    主题摘要:网络接入服务是用户和后台服务间的桥梁,对服务质量影响巨大。历时6年打造的百度统一前端(BFE:Baidu Front End)平台,目前已经覆盖百度的大部分流量,每日转发数千亿请求,并为百度的各产品线提供流量调度、防攻击、数据统计等附加功能。本次演讲将介绍BFE研发中包括网络协议、网络安全、高性能系统在内的多个技术方向,以及提升平台稳定性和研发效率的研发方法优化。










  • 主题五:百度数据库运维及Redis异地多活实践

    讲师介绍:余杰,百度资深数据库运维专家,负责百度数据库平台的管理和维护工作,热衷于大规模数据库的架构设计、性能优化以及自动化运维平台的设计。

    主题摘要:主要讲述百度DBA如何提供专业的MySQL服务,分别从高质量的部署变更、准入优化、全方位的监控预案、灾备恢复等4个维度呈现百度DBA提供高可靠、高性能MySQL服务的技术体系,并且对这4个技术方向核心技术内容做详解,全面呈现百度MySQL服务生命周期内服务运维保障。

    讲师介绍:廖洪流,百度资深Redis研发工程师,负责百度Redis平台的管理和维护工作,热衷于分布式缓存的架构设计、性能优化以及高可用服务的设计。

    主题摘要:本次分享将通过介绍百度Redis的发展历史, 了解百度在使用分布式缓存系统时会遇到的问题以及对应架构的演化过程。具体包括百度在最开始使用的传统分布式缓存架构, 到后来为了满足O2O业务发展而提出的近地域多活架构;由于AI/feed业务的快速发展, 业务在追求高可用、高性能、多地域数据同步的需求下引申出的异地多活架构。此外, 还会介绍如何做到无缝数据迁移百度Redis。

内容回顾

    • 高深:百度技术沙龙超级棒。@InfoQ

    • Warning: 都是干货。@InfoQ

    • 徳晨:讲师很棒,思路清晰,学习了@InfoQ

    • #命中you¥:#百度技术沙龙#希望多多举行这样的分享会,支持支持,前路漫漫,我们还有很长的路要走,希望百度引领我在技术的道路上越走越远。@InfoQ


现场图片展示

  • 火爆的现场
  • 讲师与听众交流
  • 提问环节
  • 79期百度沙龙完满谢幕
                                
                                          

 

                                
                                          

 

-->