PaaS 云服务提供商 Engine Yard ,在 2012 年 3 月 23 日经历了 AWS(Amazon Web Service)网络服务中断后,将对外服务不可用的比率控制在0.13%(2300 个客户,有3 个客户受到网络中断的影响)。
Engine Yard 的运营 VP,Bill Plat,以及市场营销高级 VP,Mark Gaydos,透露了他们三条最佳实践:
- 及时沟通,不论是对外部客户还是合作伙伴——在事故发生时,Engine Yard 会及时与 AWS 团队沟通以达成应对策略;同时对外部客户发布公告,告诉客户发生了什么,为什么会这样,现在进展到了哪个阶段。
- 避免“热点数据”——Engine Yard 通过将客户以及基础设备散落在不同的区域,来减小事故发生所产生的影响。而且,Engine Yard 会提供冗余数据快速恢复服务,但这项服务会额外收费。
- 清除隐患——Engine Yard 在每次事故之后,找到导致其发生的根本原因,并采取措施保证类似事故不会发生第二次。
早在一年前,在经历了类似事故后,Engine Yard 就着手研发了新的服务功能,支持客户在备选区域内恢复业务数据。同时,对于 AWS 来说,网络服务中断这个话题也常常被用户提及 (取自 AWS 论坛):
论坛用户 endertech :一周之内发生两次网络服务中断,这是为什么?
亚马逊 AWS 成员 preethi@AWS 回复说:我们知道网络中断会造成部分用户的不便,除了查看 AWS 健康状态仪表盘上的数据,我无法提供更多的信息。但我们团队在不断的努力,尽全力避免类似事故的发生,面对现在这样的状况,可以先参照下“如何构建数据容错的 AWS 应用”指南。
不论是外部客户还是云计算服务合作伙伴,都希望得到 Up-To-The-Minute 信息,能够提供高可用、高容错的云计算服务是未来供应商的核心竞争力。
评论