IT 系统越来越成为现代企业中不可或缺的基础设施,特别是在互联网企业中,IT 系统作为基本的生产资料,成为企业生存的基础设施。随着企业规模的扩大,如何管理好这些生产资料,让其发挥最大的效率,成为每个运维团队所面临的重要课题。对于企业,特别是互联网行业,运维效率的高低很大程度决定了企业业务发展的好坏,如何能够快速高效的响应业务的需求,是运维人员面临的第一大难题。
历届 QCon 大会都少不了对运维的重视。QCon 北京 2013 大会,我们邀请到了资深运维专家黄冬担任此次运维专题的出品人,并对其进行了采访。黄冬现任土豆网技术副总裁,主持设计和运营过多个大型高容量产品和系统。也是中国 FreeBSD、Python 社区的发起者和积极参与者,啄木鸟社区的创始人之一。 此外,他还积极帮助各种创业项目,创立了彩虹流量和 xBaynet 系列产品。 他热衷于与家人驾车探奇,可以通过微博老黄联系到他。
以下是采访内容。
InfoQ:能否先简单谈谈您在运维领域的从业经验,和您对此运维的理解?
黄冬:在 1999 年时我进入互联网不久,在自己成为一名开发工程师的时候与台湾的技术人员交流时,发现他们有着与我截然不同的能力。后来仔细且系统的学习了操作系统、自动化发布、分布式。再到后来,进入到了中国真正意义上的互联网企业里时,发现这是一个独立的团队,而且有着意义非凡的价值,从而真正喜爱上了这个事情。
我自己正式规模化面对运维(我称之为系统运营 System Operation)是在新浪,当时面对的是真正意义上的多机房、多运营商、动静态都面对的系统优化及团队流程化的工作。先是在新浪的邮箱团队,后来扩展到整个新浪。这两年在 12580 的技术工作及后来的土豆网里,系统运营都是我工作的基础核心,从工作流程、组织架构、精细化管理到系统架构优化均是我最为关心的问题。
国内最早对运维的理解是网络、设备及运行软件的运行维护,到互联网出现时,由于人员职能的延伸,原来的运维团队们开始承担起系统运营的工作。这里的工作主要包括系统的部署实施、基础架构的设计与实现、监控与响应系统的建立与运行、成本与可用性的管理与优化。系统运营是一个企业保证业务运行可用性的基础,同时也是建立企业低成本提升利润的发动机,更是在互联网时代高速演进的基石。
InfoQ:能否讲讲这么多年运维工作的变化与演进?
黄冬:基本上大家经历的过程都是被动到主动、手动到自动、慢速到高速的过程,有一些特点我罗列出来:
- 响应事故,天天值班,担惊受怕
- 监控实施,报警骚扰,夜半出发
- 改进架构,经常变更,快速发布
- 配置管理,度量体验,度量成本
- 自我改进,适应产品,突出特点
InfoQ:在您眼里,一名合格的运维工程师是如何定义的?
黄冬:这是一个经常说的话题,合格的运维工程师需要掌握软件、硬件及网络的知识,并能在压力时做出正确的判断并加以解决。合格的系统运营工程师还需要系统架构和代码开发(至少是代码修改)的能力。
InfoQ:那一个好的运维团队应该具有哪些要素?
黄冬:
- 自我了解,对核心工作特别是用户体验充分度量和把握
- 健康流畅的变更能力,适度自动化系统的工作
- 理解产品与业务,懂得可以舍弃的与必须争取的基础能力
- 基础架构改进与不断优化的循环能力
- 适应新的技术与不断吸收的能力
InfoQ:时代与规模的变化究竟给运维工作带来了怎样的冲击与改变?
黄冬:互联网让运维工作从被动转向主动,而且从使用变成了创造,新时代的云计算,更让这样的工作成为了一个基础产业。
InfoQ:这个领域在 2012 年有哪些值得记录的进展?
黄冬:云计算是 2012 年最值得记录的进展,在 2012 年大家已经开始思考如何应用现有的云计算、存储来改变自己的工作方案甚至基础架构。相信在 2013 年会普遍出现这样的成熟方案和工作方法,同时会有更多的基础服务供大家使用。
InfoQ:做为 QCon 中运维专题的出品人,您希望通过此专题为大家带来哪些实践经验,从而解决哪些问题?
黄冬:在今年我们更多的还是一些技术技巧的运用,同时我们还尝试引入一些管理话题及架构话题。初为出品人,还不成熟。希望 QCon 的这个专题未来能在流程管理、系统架构、技术技巧三方向不断引发新思维、体现新方法。
InfoQ:谢谢接受 InfoQ 的采访。最后一个问题,如果不做 IT,您最想从事的工作是什么?
黄冬:如果是一份工作,也许是老师,非常喜欢传播分享知识的感觉 :)
InfoQ: 谢谢黄冬:)
此次运维专题,出品人邀请到的演讲嘉宾与策划的演讲话题分别是:
- 新浪内容加速平台 (SinaEdge) 运维负责人 刘宇。作为国内第一门户新浪的运维主管,刘宇主要负责新浪微博图片、新浪视频、新浪微盘、新浪看点等新浪大小 50 个项目。在分享中他会为大家讲述自己工作中的经验与挑战。
- 腾讯互联网产品运维副总监 赵建春。赵建春将把自身和团队数年间在 QQ 空间、腾讯朋友、QQ 会员、音乐等业务的运维工作中追求高效运维的一些实践和经验总结出来,和业内同行朋友进行交流和探讨。
- 百度自动化系统管理客户端技术负责人 钟溢原。钟溢原主持研制机器初始化系统 Apollo、轻量级虚拟化系统 Executor、作业调度系统 Matrix 客户端等,覆盖百度全部自有 IDC,为百度所有产品提供底层运维支持,他将在演讲中为大家分享这些运维客户端的研发经验。
- 阿里巴巴资深技术专家 刘勇 (仲明) 。仲明负责了淘宝 2012 年度“双十一”的运维工作。在演讲中,他将针对“一天 191 亿成交额,亿笔订单”的情况,为大家讲述他们做了哪些运维工作来保障系统的平稳运行,有哪些经验和教训,以及预案管理和活动现场管理等内容。
其他专题也已确认了超过 75% 的讲师与演讲信息。关于此次 QCon 北京的详细信息,请移步至大会官网。
需要特别注明的是,今天(2 月 28 日)是本次大会购票八折优惠的最后一天。每年 QCon 大会门票都会在开幕前售罄,及早预定可提前确保席位,并享受更低折扣。如有更多需要咨询,请联系 qcon【at】cn.infoq.com,或直接致电 010-64738142。报名请点击报名页面。
评论