Amazon 根据客户反馈更新了 AWS 最佳架构实践(AWS Well-Architected Framework),增加新的卓越运营(Operational Excellence)维度。
AWS 最佳架构实践中包括了一系列最佳实践,用于构建和运营安全、高效且具有成本效益的云端系统。Amazon 一并为 AWS 用户给出了架构指南,该指南也适用于其它云平台。
该架构框架是在一年前发布的,这次更新基于客户的反馈和对过去使用经验的总结。如果有人不熟悉这个框架,我们建议先读一下这篇 InfoQ 前期发表的文章,因为在本文中我们将仅介绍新引入的变化。
在去年版本所给出的四大维度(安全、可靠性、高效和成本优化)之上,这次 AWS 架构团队引入了第五个维度,即卓越运营。卓越运营是“通过系统监控实现交付业务价值和持续改进支持流程的能力”。为确保对生产负荷的卓越运营,框架推荐了以下的最佳实践:
- 运营自动化:尽可能做到自动化运营。
- 运营流程和业务目标保持一致:仅采集支持业务需求的度量指标,对运营事件做出适当的响应。
- 做定期、小规模、增量的变更:工作负荷应由定期小幅度更新的组件构成,更新中无需停止服务。如有必要,运营中应可回滚这些更新。
- 测试对突发事件的响应:在系统中注入故障,查看系统是如何对突发的运营事件做出响应的。制定明确的响应此类事件的程序。
- 从运营事件和故障中学习:为了改进系统,监控并分析系统对各种运营事件的行为。
- 保持运营过程的与时俱进:系统会随时间发生改变。为准确地反映系统当前的状况,需要适时更新程序和指南。
为了构建良好的云端系统,最佳架构实践给出了若干设计原则:
- 避免对容量需求妄加猜测:尽量使用云的可伸缩能力,而非猜测容量需求。后者会导致提供的容量不准确。
- 对系统进行生产规模级别的测试:将系统扩展到生产所需的规模,测试并查看在真实生产环境中系统的运行情况。一旦测试结束,就释放掉额外的资源。
- 自动化以便简化架构实验过程:将整个系统创建流程自动化,使系统更易于被复制。此外,这种做法让回退到之前的状态变得更容易。
- 考虑演进式架构:自动化让架构师可以根据需要设计系统,测试和搭建工作也会变得更容易。
- 数据驱动架构:采集所需的运营数据,用于评估架构改变对工作负荷的影响。采集的数据还可用于调优自动化代码。
- 以模拟运行的方式实现改进:通过注入故障模拟生产环境中的运营事件,这样可以了解系统在故障发生时的行为,并在必要时解决这些故障。
该框架中还包括了关于最佳架构实践五个纬度的问答。问答中提供了解决实际问题的指南,包括如何防止对 AWS root 账户的非法使用、规划网络拓扑、对计划之外的运营事件作出响应,等等。如果想要深入地了解如何成功创建一个云端系统,我们建议阅读论文“ AWS 最佳架构实践”。
查看英文原文: The AWS Well-Architected Framework Adds Operational Excellence
感谢薛命灯对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论