中国互联网行业经过十多年的蓬勃发展,到今天形成了从巨头到中小企业近百家上市公司,还有大量创业公司并存的繁荣景象,而运维领域经过十多年的发展,随着服务器和流量规模的快速攀升,在海量技术运营方面不断探索和突破,形成了很多可供参考的成熟海量运营案例和方法论;开源软件领域也从之前的偏重生产系统的软件如 MySQL、Apache 等发展到越来越偏重综合运维管理的解 决方案,如 Docker 甚至开源云平台等。
即将于 4 月 23 日~25 日在北京国际会议中心举行的 QCon 北京 2015 大会,相应设置了“自动化运维”专题。本专题试图在前面介绍的这几个方面,为大家找一些业内成熟案例和探索,供大家学习和参考。
我们邀请了腾讯社交网络运营部助理总经理赵建春担任本专题的出品人。赵建春,腾讯 T4 专家工程师,技术运营通道顾问。04 年大学毕业后加入腾讯,先后参与过交友、音乐、贺卡、QQ 空间等业务的开发。06 年后和团队一起专注于技术运维,负责腾讯社交网络事业群社区类 Web 业务的运维和建设工作至今。经历了业务规模从数十台设备到数万台设备的快速发展历程。在此过程中,他在运维环境标准化、业务 Set 化、运维自动化及多地分布式部署、内部云建设等方面积累了丰富的实战经验。
目前本专题的讲师已经全部确定,我们邀请了来自业界领先的互联网公司的 7 位运维专家,为大家分享他们的宝贵经验。到底有哪些专家,他们会分享什么样的话题呢,我们先睹为快。
“高效运维最佳实践”是 InfoQ 在 2015 年推出的精品专栏,由触控科技运维总监萧田国撰写,InfoQ 总编辑崔康策划。目前已经发布两篇文章:高效运维最佳实践(01):七字诀,不再憋屈的运维,高效运维最佳实践(02):员工的四大误区及解决之道。在 QCon 上,萧田国将来现场分享《专业运维的最佳实践探索》:
我们那么的努力,为什么业务部门对运维的评价往往没预期的好?运维人员应该怎么做,才能获得更多认可?运维人员更愿意关注个人技术能力的提升,及认为给公司带来了多大的价值,往往忽略了怎样更专业的做事情,以达到甚至超越公司和业务部门的期望,摘取个人和团队的”组织成果“。
本主题试图从业务部门的角度观察和审视运维,基于演讲嘉宾多年一线运维经验及管理学方法,侧重解决三个问题:即什么是专业运维(公司需要怎样的运维),为什么难以做到,及怎样专业化运维。希望引发大家思考,并有所裨益。
Docker 问世两年左右,就引爆了社区,InfoQ 也相应设置了 Docker 专栏,为 Docker 的学习和推广共享着自己的力量。Docker 在企业界的应用状况、部署规模到底如何呢?我们邀请了腾讯数据平台部高级工程师罗韩梅,她将分享 Docker 在腾讯的应用状况。她的演讲是《Gaia——万台规模的 Docker 应用实战》:
作为底层的资源调度平台,Gaia(盖娅)能够让应用开发者像使用一台超级计算机一样使用整个集群,极大地简化了资源管理逻辑。Gaia 提供高并发任务调度和资源管理,实现集群共享,具有高度可伸缩性和可靠性,能够支持 MR 等离线业务,甚至是实时计算、在线 service 业务。通过一系列的优化,Gaia 可以支持到单 cluster 万台规模,毫秒级的作业下发效率以及更加完善的资源管理,同时,我们引入了弹性内存管理,增加了网络和磁盘带宽管理。
Docker 轻量、可移植、跨平台的特性将彻底改变程序的交付方式,并充分释放了虚拟化的威力,大有掀起一场容器革命之势。云计算、大数据经常意味着需要调动数据中心大量的资源,如何能够快速的匹配合适资源,需要一个聪明的“大脑”——Gaia。通过 Docker on Gaia 实现的 Docker 云,将会让 Docker 的能量发挥到极致。
面对线上故障,我们是疲于救火,还是尽量防患未然,曲突徙薪?搜狗高级经理房秀丽将分享《从“救火”走向“防火”》:
是否在线上发生故障时,开发和运维人员忙成一团?是否觉得已经对线上故障很重视了,但是线上故障依然屡次发生?是否每天不是在“救火”就是在“救火”路上?是否团队的成就感已被逐渐的抹杀?实践证明,如果仅仅是遇到故障才去解决的“亡羊补牢”式的工作方式,就会使“救火”成为常态。因此,我们需要思考应该如何使运维的状态从“救火”变成“防火”,做到防患于未然。
本次主题分享的是针对搜狗商业平台产品迭代速度不断加快、机群规模持续扩大、应用架构日趋复杂的演变过程中出现的各种运维问题,介绍我们在发布管理、监控管理、故障管理等方面进行的探索,以及如何通过搜狗商业自动化平台和运维体系实现从“救火”逐渐到“防火”的转变。希望能对大家有启发或借鉴作用。
业务场景复杂多变,系统平台纷繁复杂,运维团队应该如何应对?我们邀请了赶集网运维平台负责人、自动化运维专家崔华,分享《赶集运维之九天探月》:
面对乱象丛生的开发模式,面对复杂多变的业务场景,面对众 多纷杂的系统平台,赶集运维挑战重重;从无到有,从小到大,由分散到整合,由无序到流程。。。还有我们正在由工具走向平台化的今天;我们经历了重构甚至推翻重搞,经历了数不清的从黎明到黑暗, 又从黑暗到黎明, 经历了用户的无数吐槽与点赞,经历了太多太多。如何目睹起飞的过程? 如何清晰地看到那一轮明月?希望能够通过这些“经历”来和大家一起分享“赶集阿波罗平台”的前身今世,以及我们规划建造这个“飞船”时 遇到的坑和得到的赞。
在云计算时代,数据库的运维有何挑战呢?我们听听阿里巴巴高级数据库专家陈长城(花名天羽)的分享——《云计算时代的数据库运维体系》:
通过对比企业数据库运维模式和云数据库(以下简称 RDS)的运维区别,说明在云计算时代,运维变成了一种服务,作为公共计算服务的一部分服务于广大企业。这时候云数据库运维面临的机会和挑战。
1、所有企业和个人,对云数据库的 SLA 要求都是一样高的。在以前我们负责大规模产品线时,宕一台只影响 1/16 或更小,但在云数据库,对一个用户来讲就宕机 1 台就是 100% 不可用。
2、当运维变成一种服务,用户会担心数据是否安全,云平台的运维模式是否可信。
3、用户对 RDS 平时不希望参与维护,但出问题他会找你,这就要求我们比用户更早发现问题,甚至能提前预判和规避问题。
针对这些痛点,我会介绍 RDS 产品和运维平台杜康在阿里云计算运维实践中的解决方案,产品在用户和运维界面上的设计,杜康在全链路监控、可信运维模式、智能运维和服务化的进展。
运维体系建设首先是为了稳定性,最终追求的是用户体验。为了提高用户使用 RDS 的体验,我们开发了一些独有的功能,我将重点介绍 CloudDBA 的设计和实践,CloudDBA 的想法源于我们一直希望把 DBA 的经验产品化,今天阿里集团有一大批经验丰富的 DBA,但在云计算的用户是没有的,我们希望将阿里 DBA 丰富的线上经验输出给广大的 RDS 用户。CloudDBA 是阿里基于多年数据库运维经验开发的自动化工具,把 DBA 工程师的一些基础工作如 SQL 优化、表结构优化、空间使用优化等通过系统给用户专业的建议,由用户决策并一键执行,将为阿里云数据库服务(RDS)的用户带来全新的便利体验。其中 CloudDBA 诊断引擎项目,专业 DBA 自动 SQL 优化服务已经通过云数据库管家在 RDS 控制台推出,我也将分享产品设计和推出过程的一些感想。
最后简单介绍下 RDS 对外开放的 API,运维服务是可以由第 3 方提供的,行业云用户需要更多深入定制的运维服务。
刚刚过去的除夕之夜,对微博平台也是一次大考。我们邀请到了新浪微博平台运维架构师王关胜,他将分享《新浪微博平台运维自动化之路》:
11 年初,新浪微博进入快速发展期,同时也开启平台化的进程,服务器设备,及人力成本大量增加。业务的发展,让我们意识到运维自动化的必要。于是开启探索之路,本次主题就其中关键部分进行分享。
除了线上系统的自动化运维,底层的数据中心如何通过自动化运维实现支撑,也是一个有意义的话题。我们邀请了百度系统部高级项目经理陆川,他将分享《百度数据中心自动化平台演进过程》:
一、主题摘要:
1. 背景(数据中心自动化的定义(机器运维、网络运维,不包含业务运维,如 apache、mysql),百度数据中心规模发展(几千台——数十万台))
2. 百度数据中心自动化运营平台发展历程(流程系统 -> 半自动 -> 全自动)
3. 百度数据中心自动化运营平台架构设计(资源管理平台、自动化平台、配置管理数据、监控平台、数据统计分析平台)
4. 百度数据中心自动化运营平台未来发展(简化、开放、大数据分析)
二、听众受益:
1. 了解超大型互联网公司数据中心自动化运营平台的发展历程,有助于中大型互联网公司平台研发团队开拓思路,少走弯路;
2. 了解大规模数据中心自动化运营平台、存在的问题和解决方案;
3. 了解数据中心自动化运营平台如何为公司、业务创造价值;
4. 了解数据中心自动化运营平台未来发展的趋势。
更多精彩,尽在现场。现在报名,可享 9 折优惠。
评论