维持业务持续性对于企业至关重要, 关键业务系统宕机可能会对企业带来重大影响,企业声誉、客户满意度或公司的财务的状况都可能受到难于挽回的重大损失。 因此,构建高可用高容灾的 IT 系统和建设 IT 灾备系统,具有显而易见的价值。
在灾备解决方案的选定上,企业需要先制定好两个重要指标:恢复时间 RTO(故障恢复时间),和恢复点 RPO(可忍受数据损失的时间点)。基于这两个关键业务指标,企业 IT 部门可以设计相应的应用架构、备份架构和灾备体系,通过使用一系列镜像/快照等技术手段,来实现相应系统的连续性服务水平。
在传统做法中,实施较高要求的容灾和灾备系统,往往不光要求企业花费大量时间和精力,而且部署复杂且价格昂贵。这对于多数企业,特别是中小型企业,都是一个巨大的负担。使用公有云的 基础设施来实现数据保护、备份归档和灾难备份,拥有传统 IT 无法比拟的巨大优势。
本文首先对灾备的基本概念做概况介绍,之后将利用 wordpress 模板模拟经典 web hosting 架构的应用场景,给出基于 AWS 的不同指标的 4 种备份/灾备方案,并做关键指标的对比。 本文概括介绍了在 AWS 上搭建容灾备份系统的四大方案。每一种方案都给出了具体的解决方案、架构图、成本估算、具体执行步骤 和 自动化脚本。 企业可结合自己对应用系统 PTO 和 PRO 的要求以及成本预算,选择适合自己的灾备方案。
关键指标 RPO & RTO
RTO (Recovery Time Objective,复原时间目标)是指灾难发生后,从 IT 系统当机导致业务停顿之时开始,到 IT 系统恢复至可以支持 各部门运作、恢复运营之时,此两点之间的时间段称为 RTO。比如说灾难发生后半天内便需要恢复,RTO 值就是十二小时。
RPO (Recovery Point Objective,复原点目标)是指从系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,恢复得来 的数据所对应时的间点。如果现时企业每天凌晨零时进行备份一次,当服务恢复后,系统内储存的只会是最近灾难发生前那个凌晨零时的资料。
该图解释了 R`TO 和 RPO 与时间轴的关系。
灾备类型
不同的业务对于 RPO 和 RTO 的要求也不同。根据不同的要求,我们大概可以将灾备归类 Cold Backup , Pilot Light , Warm Standby 和 Hot Site. 以下将介绍四种灾备类型的架构设计和灾中切换过程。
Cold Backup 是指定期导出并上传业务数据;当灾难发生时,启动数据层和应用层资源,并导入数据。 例如 MySQL 利用 mysqldump 工具进行定期的全量备份或增量备份。
Pilot Light 是指实时异步复制业务数据;当灾难发生时,启动应用层资源。
Warm Standby 是指实时复制业务数据,应用层保持小规模资源配置;当灾难发生时,迅速扩大应用层资源。
Hot Site 是指实时同步/异步双向复制业务数据,应用层资源保持一定规模的配置,DNS 按权重 解析到两个站点;当灾难发生时,DNS 解析到单个站点, 并迅速扩大应用层资源。
不同的备份方式所产生的成本也不同,以下是 4 种类型适合业务类型和成本对比:
模拟内容
本专题是模拟一个典型的 Web Hosting 场景,即 WordPress Cluster 在不同场景下进行不同类型的备份。通过此模拟场景,提供 不同场景下,不同类型的灾备 解决方案、架构图、成本估算、 执行步骤 和 自动化脚本 。
我们假设 WordPress Cluster 组件如下:
MySQL: WordPress 数据库
Redis: 使用 Redis Object Cache 插件,使得 WordPress 支持 Redis 作为缓存,提高用户访问体验
共享存储: WordPress 的文件存储在共享存储上,每一台 WordPress 实例都可以访问相同的共享存储
应用服务器: 安装 WordPress 应用
负载均衡: 将接收到的流量转发给后端的 WordPress 集群
不同类型的备份所需策略也不同。上述 WordPress Cluster 场景,只有 MySQL 和 WordPress 文件存储内有持久化数据,将迁移的大致策略归纳总结如下:
AWS 组件的计费模型
在模拟场景中将使用到一些 AWS 的常见服务,其计费模型如下:
不同场景下的解决方案
根据原生产环境部署位置的不同,本文介绍相应的不同方案,比如 AWS 的多区域容灾,IDC 到 AWS 的容灾,友商到 AWS 的容灾等。详细步骤请分别点击以下链接:
脚本下载
基于 WordPress Cluster 的设定场景,上述详细方案的执行脚本发布在 此GitHub Repo下。项目内有三个文件夹,basic
, database
, app
您可以根据需求修改具体参数,来满足对于业务持续性的需求。当做环境切换时,只需要一键启动此模板,即可轻松恢复生产环境。具体使用方法,请分别点击每篇文章查看。
总结
本文简述了常见的标准灾备方案,并在关键指标以及成本角度做了简单的对比。我们可以根据业务实际部署的情况,在 AWS 上选择适合自己的灾备方案。
作者简介
施乔,亚马逊 AWS 解决方案架构师,负责基于 AWS 的云计算方案的架构设计,在应用开发, Serverless, 大数据,IoT 方向有丰富的实践经验。
李天歌,AWS 解决方案架构师
本文转载自 AWS 技术博客。
原文链接:
https://amazonaws-china.com/cn/blogs/china/corporate-backup-and-disaster-backup-series/
评论