高可用云计算服务——Engine Yard如何应对AWS停用

PaaS 云服务提供商 Engine Yard ，在 2012 年 3 月 23 日经历了 AWS(Amazon Web Service)网络服务中断后，将对外服务不可用的比率控制在0.13%(2300 个客户，有3 个客户受到网络中断的影响)。

Engine Yard 的运营 VP，Bill Plat，以及市场营销高级 VP，Mark Gaydos，透露了他们三条最佳实践：

及时沟通，不论是对外部客户还是合作伙伴——在事故发生时，Engine Yard 会及时与 AWS 团队沟通以达成应对策略；同时对外部客户发布公告，告诉客户发生了什么，为什么会这样，现在进展到了哪个阶段。
避免“热点数据”——Engine Yard 通过将客户以及基础设备散落在不同的区域，来减小事故发生所产生的影响。而且，Engine Yard 会提供冗余数据快速恢复服务，但这项服务会额外收费。
清除隐患——Engine Yard 在每次事故之后，找到导致其发生的根本原因，并采取措施保证类似事故不会发生第二次。

早在一年前，在经历了类似事故后，Engine Yard 就着手研发了新的服务功能，支持客户在备选区域内恢复业务数据。同时，对于 AWS 来说，网络服务中断这个话题也常常被用户提及 (取自 AWS 论坛)：

论坛用户 endertech ：一周之内发生两次网络服务中断，这是为什么？

亚马逊 AWS 成员 preethi@AWS 回复说：我们知道网络中断会造成部分用户的不便，除了查看 AWS 健康状态仪表盘上的数据，我无法提供更多的信息。但我们团队在不断的努力，尽全力避免类似事故的发生，面对现在这样的状况，可以先参照下“如何构建数据容错的 AWS 应用”指南。

不论是外部客户还是云计算服务合作伙伴，都希望得到 Up-To-The-Minute 信息，能够提供高可用、高容错的云计算服务是未来供应商的核心竞争力。

高可用云计算服务——Engine Yard 如何应对 AWS 停用