看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!
和软件工程师一样,网站可靠性管理工程师需要负责 IT 运营,2003 年 Google 就推出了这一设想,2016 年 Google 推出了《网站可靠性管理,Google 如何运营生产系统》一书,详细介绍了这一方面内容。网站监测服务公司 Catchpoint 最近调查了 416 名网站可靠性管理工程师(SRE),希望借此了解 SRE 的具体工作。
调查的内容包括谁可以担任 SRE(需要的经验水平、背景和技能),他们在哪里工作,他们的工作要做些什么以及他们怎么完成工作(SRE 每天使用的工具和流程,以及他们衡量工作的指标和方法)。39% 的受访者认为自己纯粹是 SRE,剩下的一部分兼任管理、基础运营、开发者和工程师的工作,有 10% 的受访者担任开发运营,另外 1% 做安全方面的工作。超过一半的受访者在技术相关产业的公司工作,而超过 40% 的受访者是服务提供商。超过半数的受访者在至少有 1000 名员工的公司工作,仅有低于 40% 的受访者在拥有 5000 名或以上员工的大企业工作。87% 的受访者来自北美或欧洲。
34% 的受访者说,他们 “从云起步”,32% 的受访者是混合模式的,19% 的受访者迁移到云,而 14% 的人仍然使用自有“数据中心”。65% 的 SRE 将完全或部分基础设施搭建在云上,47% 的受访者每天要部署多次。SRE 的工作需要负责写代码并支持现有系统的运行。公司希望 SRE 可以平均分配时间,写代码和运营的时间五五开,但是现实情况却是钟形曲线,两者时间占比差异显著。
SRE 重点关注应用程序和服务的可用性,84% 的受访者认为可用性是衡量他们服务水平最重要的指标之一。有 64% 的受访者提到了错误率和延迟率。在问题解决环节中,94% 的受访者表示会依赖即时通讯手段,而不是选择研讨室、视频会议、电话和邮件的方式。SRE 认为最重要的三个工具是警报、版本控制和聊天工具。
44% 的公司并不严格遵守错误预算,但是公司越大,发生这种情况的概率越小,所以在拥有 5000 或以上员工公司工作的 44% 受访 SRE 会更加遵守错误预算。
92% 的受访者认为 SRE 首要具备自动化技能,然而仅有 18% 的受访者表示他们的团队自动化运行一切。32% 的金融行业 SRE 觉得自己已经把可以自动化的东西都自动化运行了。公司越小,需要自动化的地方就越多,拥有少于 50 名员工的公司需要 22%,而拥有 5000 名或更多员工的公司仅有 12%。
SRE 员工不是新手员工,80% 的 SRE 拥有六年或以上的工作经验,并有较高的学历。但并不完全需要计算机科学或是信息技术的学位,73% 的 SRE 拥有技术方面的学位。在担任 SRE 之前,64% 的受访者担任系统管理员,而 53% 的受访者是开发人员或是软件工程师,17% 的受访者拥有开发运营“混乱之墙”两方面的经验。大多数受访的SRE(55%)在工程部门,仅有31% 的受访者在IT 运营部门。
点击这里查看完整的调查结果。
查看英文原文: What It Means to Be a Site Reliability Engineer According to a Survey from Catchpoint
感谢无明对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论