Twilio的云架构原则-InfoQ



 写点什么

正当很多知名网站都在抱怨自己受到了AWS 问题的影响时， Twilio 的API 和服务并未受到影响，尽管他们也严重依赖于AWS 来培育并扩展自己的云电话平台（cloud telephony platform）。对于Evan Cooke（ Twilio 的合伙创始人与 CTO）而言，这不仅展现了云服务在开启当代互联网生态环境方面的惊人成功，还展现了坚实可靠的分布式架构设计在构建云服务时的重要性。

当我们在 Amazon Web Services 上培育并扩展 Twilio 的时候，我们遵循了一系列的架构设计原则，以便能将底层基础设施中偶发但不可避免的问题所带来的影响降到最小。

故障单元是单台主机

构建由单台主机构成的简单服务，而非多依赖的主机构成的服务，可以创建复制服务实例来抵御主机故障。

短时间超时与快速重试

发生故障时，让软件快速识别失败并重试请求。每个服务都运行多个冗余拷贝，短时间内超时，然后绕过失败或不可访问的服务进行重试。

幂等的服务接口

如果所依赖服务的 API 是幂等的，那就意味着可以安全地对失败请求进行重试。

小的无状态服务

将业务逻辑分散到小的无状态服务中，这些服务可以被放到简单的同构服务池中。

宽松的一致性要求

在不需要严格一致性时，为要读取的数据做复制和冗余。

根据故障的详细说明，Evan 还解释了为什么Twilio 只针对非关键和非延时敏感的任务使用EBS，因为这不需要符合“故障单元是单台主机”原则。如果EBS 遇到了问题，所有依赖它的服务都会发生故障。他们转而关注于利于EC2 主机上的临时磁盘来做持久化。如果临时磁盘坏了，那么故障的范围仅仅是那台主机。Evan 将发表一篇后续文章来描述他们是如何跨过多个临时磁盘来做RAID0 以提升I/O 性能的。

这与 SmugMug 采用的原则和方法是一致的，正如 Don McAskill 所说的那样，SmugMug 也选择不用 EBS。

Mike Kavis（M-Dot Network 的 CTO）认为 Amazon 的 IaaS 已经变成了 PaaS ：