我是来自上海英方软件股份有限公司的高级技术顾问李光。拥有在容灾、备份、虚拟化、云计算、小型机,Oracle 数据库 12 年的前线实战经验,擅长政府、运营商、医疗、教育、公安、企业等行业领域。
今天我分享的主题是《云灾备的起源、发展和行业实践》。内容有以下四个方面:
- 云灾备的起源、背景、特点和 ROI 分析;
- 云灾备的主要产品形态;
- 云灾备的具体业务模式;
- 云灾备实践
先来看看云灾备的起源:
- 2006 年:Google 正式提出云计算的概念,同年,亚马逊正式推出网络服(Amazon Web Services,AWS),依托 S3、EC2 等产品的成功,AWS 成为云计算领域的翘楚;
- 2008 年:国外开始出现云灾备的概念,然而由于诸多的原因并没有持续发展下去。
- 2009 年:国内的 BAT 先后建立了自己的云平台,其中阿里巴巴的阿里云凭借与 AWS 相识的基因,迅速奠定了国内公有云市场的领导地位。
- 2012 年:经过几轮激烈的价格战之后,云存储的成本进一步降低,这为云灾备的发展奠定了基础。
- 2013 年:国内开始引进“云灾备”的概念,百度百科词条创建,一些云存储企业开始在自身业务上涉及云灾备。
- 2014 年:在云计算以及最新的一波创业浪潮的推动下,云灾备的开始以一种独立的创业形态开始。
- 2015 年:灾备领域的领导者上海英方软件股份有限公司正式推注旗下的云灾备平台——英方云(i2yun.com)。
云灾备产生的背景,有以下四个时期:
- 大数据时代,数据激增,数据的价值也日渐突出,数据备份不再仅仅是政府、银行、医疗、教育等行业的行业需求,而是大量的中小型企业用户、个人用户的普遍需求,这些增量市场需要一个简单易操作、价格可接受的数据备份方案。
- 互联网时代,用户数和业务激增,业务停机不仅影响用户体验,而且还会导致巨额的损失,企业对业务连续性提出了更高的要求。
- 云计算时代,混合 IT 架构的长期存在,需求一个可以基于云的灾备方案,以应对混合 IT 架构,包括多种操作系统、多种数据库、多种应用、多样的网络环境等。
- 随着公有云的普及,弹性易扩展、简单易运维、敏捷易部署已成为用户采购 IT 解决方案非常重要的评估因素,基于云计算技术的云灾备方案具备以上特点。
再来看看云灾备的特点:
(点击放大图像)
适应混合 IT 架构
对于物理机、虚拟机、云主机,本地数据库、云数据库,长期并存的混合 IT 架构,可以通过云灾备进行集中管理,全面保护。
继承了传统灾备技术的优势
部分云灾备解决方案继承了传统灾备解决方案在数据一致性、业务连续性和数据安全性方面的特点。
投入低
无须一次性采购高额的硬件投入,也无须面对因为采购硬件所带来的设备寿命、利旧、再采购等硬件生命周期管理问题。
敏捷运维
部署简单、运维方便、随时演练,运维人员可专注于整个 IT 系统的分层灾备的设计和规划上,并利用弹性的云灾备资源进行分层、分阶段部署。
资源服务化
结合了云计算的特点提供了多租户平台、弹性扩容的功能,实现了云灾备资源的服务化。
云灾备的主要产品形态:
云备份和恢复 云迁移 云高可用
云灾备、云备份与恢复
云备份的概念最早可以追溯到云计算概念最开始兴起的时候,并且在网盘、手机备份等产品的推动下,云备份逐渐成为云计算最为普遍的一种应用模式。相比于传统的备份,云备份不仅具备了简单的数据存储功能,在增加了相应的分享、恢复等功能之后,云备份更可以将系统容灾备份软件和云计算平台技术结合为一体,可以通过充分的云计算资源共享,实现成本低廉、部署迅速、灵活弹性的远程数据容灾备份服务。
(点击放大图像)
英方云全面支持Windows 和Linux 平台以及虚拟平台上的各种应用数据的保护,包括SQLServer、Exchange、DB2、Oracle、MySQL 等。
云备份和恢复发展趋势
技术架构越开放,既能对接企业的私有云平台,IDC 数据中心,还能对接各大公有云平台,越易受用户欢迎
云迁移,不停机全服务器迁移
对于众多企业来说,云的优势越来越明显,比如希望通过从不同的地域位置运行工作负载来增加灾难恢复(DR)的选择,又或者出于投入成本方面的考虑,甚至是传统供应商的令人不愉快的租赁和繁琐升级问题。这些都可以是企业向“云”看齐的原因,不过,在涉及到本地或云端的具体实施过程时,一个较为重要的问题就是数据的迁移。
据国外媒体报道,最近对240 位信息IT 和安全专业人员进行了一次深入的调查,该调查中发现,尽管在数据中心应用迁移到云服务这个过程中经常会出现应用连接中断问题,但还是有许多机构计划把数据中心应用迁移到云服务中。云迁移不只是从本地到云的转变,还有可能是从一个云到另一个云的迁移,比如从公有云迁移到另一个公有云、从私有云迁移到公有等等。
(点击放大图像)
英方云迁移服务将复杂的系统迁移工作简单化,且在生产系统不停机情况下迁移现有应用或者整个系统,包括操作系统、应用程序、用户信息、网络配置等所有的数据,整个迁移过程时间可预测,并可在迁移完成后立刻切换到新系统,真正迁移过程服务不停止,目前英方云迁移支持V2V、P2V、P2P 等多种形式的应用或系统迁移。
云迁移发展趋势
融合迁移能力越强,物理环境、虚拟机环境、私有云环境、公有云环境,兼容各类系统和应用,无关硬件,越易受欢迎;迁移过程,对生产系统影响越小,越易受用户欢迎。
云高可用,高可用云主机服务
传统的高可用(High Availability)实现方式主要包括:主从方式 (非对称方式)、双机双工方式(互备互援)、集群工作方式(多服务器互备方式)三种。
(点击放大图像)
在云计算环境中,高可用的实现方式主要以第二种和第三种方式为主,在保证高可用的同时,利用多机分担负载,也具有高的扩展性(Scalability)。通常来说,云计算的计算资源和存储资源是以集群形式实现的,特别强调可扩展性。英方云高可用,可以帮助客户在云端建立针对应用或者系统的容灾备份系统,在异地建立一套完整的与本地生产系统相当的备份应用系统当一处系统因意外停止工作时,整个应用系统可切换到另一处,使该系统功能可以继续正常工作。
云高可用发展趋势
跨云高可用性能越强,越能保证数据一致性,切换演练越自动化,越易受用户欢迎
云灾备的具体业务模式
在传统的IT 架构中,存在着明显的分层,包括存储层、系统层、应用层等,针对不同的层级,也就是会有不同的灾备方式,这种层的概念,在云计算中同样存在。
SaaS PaaS IaaS DRaaS
SaaS 层灾备
SaaS(Software-as-a-Service)软件即服务,这是云计算的最上一层,也可以理解为传统 IT 架构的应用层。其实我们用的浏览器、QQ 等都可以认为是一种 SaaS,所以 SaaS 的本质依然是软件。通过 SaaS 这种模式,用户只要接上网络,并通过浏览器,就能直接使用在云端上运行的应用,并由供应商负责维护和管理云中的软硬件设施,同时以免费或者按需使用的方式向用户收费,所以用户不需要顾虑类似安装、升级和防病毒等琐事,并且免去初期高昂的硬件投入和软件许可证费用的支出。
当然,天下没有免费的午餐。在灾备的体系中,备份数据的存储方式依然是一个关键,随着公有云的兴起,SaaS 企业可以直接在云端购买一个属于自己的数据中心,然后出租给用户,这便是 SaaS 与公有云灾备的最基本模式。以英方云为例,通过与阿里、腾讯、天翼、沃云等公有云平台合作,英方云可以将自身在灾备上的技术优势直接与云端链接,进而为用户提供即开即用的云灾备服务。
PaaS 层灾备
PaaS 层的主要服务内容是通过云将 IaaS 层资源动态管理和分配,用有限的资源提供身份认证管理、应用资源管理、工作流控制管理、服务总线管理、基础资源调度等平台服务。因为 PaaS 本身就是一种平台化的服务模式,因此在 PaaS 层的灾备主要是通过对用户服务器进行多机房部署和异地容灾,进而在基础设施上保障了高可用性。比如 AWS 便在 2015 年推出的为其云客户提供不中断业务正常运行时进行的在线备份服务,并为 PaaS 管理员提供回滚的操作。
IaaS 层灾备
IaaS(Infrastructure as a Service)基础设施即服务,这是云计算的最底层,也可以理解为 OSI(Open System Interconnection)的物理层及数据链路层。相比于公有云的“公寓”,很多企业在预算充足的情况下,希望可以在云端建一个自己的“别墅”。这个别墅式的云灾备系统就需要更多的借助 OpenStack 等开源代码平台进行搭建。
基于 OpenStack 的云灾备是将成熟的双活数据中心解决方案集成到云灾备方案中,并结合一系列的云管理平台、灾备管理软件、存储服务平台、接口扩展、虚拟化、存储双活、虚拟机备份等技术,这种方式搭建的是一个更为“私密”的灾备解决方案,同时由于将数据封装在一个“容器”内,所以其内在的数据也是“不易见”的。
不管是公有云还是私有云,不管是 SaaS 还是 IaaS,都不是云灾备的终结,从技术和模式的角度来说,更不存在孰优孰劣的分歧,问题的关键是,如何找到适合自身业务需求的云灾备方案,“鱼和熊掌不可兼得”。
在传统灾备系统建设过程中,信息安全的相关技术和管理体系相对成熟。随着云计算技术的引入,灾备系统将拥有全新的逻辑和物理架构,将会对现行灾备系统的建设带来一些影响。云计算环境下,数据的处理和存储都在云端进行,计算资源的拥有者与使用者相分离,数据在远程计算、存储、通信过程中都有被故意或非故意泄露的可能。这更需要 IT 人员对现行的信息安全体系进行重新审视,根据云计算弹性伸缩、按需分配、按量计费的特点制定新的用户保护和数据安全策略。
DRaaS 层灾备
相对于可以恢复到本地的异地存储备份,DRaaS(Disaster Recover as a Service 灾难恢复即服务) 提供基于云的计算能力不仅可以实现数据的恢复,更可以在云中通过虚拟机启动整个业务系统。
Gartner 预计:到 2018 年,采用灾难恢复即服务(DRaaS)的组织机构数量将超过采用传统服务的数量。未来,灾备行业的魔力象限将包括三种 DraaS:
- 灾难恢复即服务(DRaaS):服务提供商管理虚拟机副本,可以选择将来自生产数据中心物理机副本保存到云中,虚拟机 / 物理机在云内激活,在云内进行恢复。
- 使用基础设施即服务进行恢复:客户管理来自生产数据中心的虚拟机副本保存到云中,提供商管理虚拟机在云中激活,客户在云中进行恢复。
- 使用备份即服务(BaaS):提供商负责从生产数据中心备份虚拟机到云,客户请求虚拟机找回(在云中或者云外),并且客户负责进行恢复(在云中或者云外)。
案例实践
案例一:江苏电信:
解决方案:依托江苏电信的数据中心资源和英方的云端灾备技术,双方合作建立的江苏电信云灾备管理平台提供了了本地或云端的应用级高可用、云迁移和各类业务系统的持续数据保护和快速恢复。
(点击放大图像)
通过江苏电信云灾备管理平台电信的企业用户可以在按需分配的基础上,对数据、应用和系统进步备份,并支持各类应用和系统的保护。同时,支持在公有云、客户的私有云或数据中心之间实现自由的数据的迁移。
江苏电信投资收益:
- 按需使用,降低用户使用灾备服务的经济门槛:无须投入大量的建设资金和后续的维护管理成本,只需支付服务费用即可获得完整的备份服务。降低使用灾备服务的门槛,利于扩大使用灾备服务的用户数。
- 节省部署时间,降低用户使用灾备服务的能力门槛:终端用户无须部署硬件、软件等资源,无须聘用专业技术人员,在 i2Cloud 云灾备平台注册,做简单配置后,即可享用云灾备服务。
- 多租户操控平台,集中管理:江苏电信的每个企业用户拥有独立账户对企业的数据进行备份管理,包括数据、应用和系统的备份,迁移和容灾高可用。
案列二:广州妇女儿童医疗中心
需求分析:为保障业务系统的高可用,不仅利用云平台自身的漂移、快照等功能,还提供了云灾备的解决方案,对关键业务实现系统和数据的容灾和备份。
从广州妇女儿童医疗中心相关系统的重要性和其要求严格性出发,即利用服务器上的备份软件通过 IP 网络实现数据的远程云端复制。对数据及应用进行灾备保护,确保数据的实时保护以及应用的高可用性接管。
(点击放大图像)
系统架构:在此项目中,广州市妇女儿童医疗中心将这些关键的数据和应用通过千兆专线实时灾备到广州联通的五星级房中,实现对数据和应用的实时灾备保护。在主备服务器上安装英方客户端,主要针对相关数据实施实时保护,在各自主备服务器之间实现数据实时复制保护,异常时快速恢复相关数据。其中生产服务器包含番禺的广州市区的数据中心的相关业务服务器,在其上均安装英方客户端,实时备份目录提供数据实时或定时容灾保护。
在异常情况时,部署在广州联通云端的灾备系统即提供数据快速恢复服务,将数据快速恢复到选定的服务器(原机或新得服务器)上,并保证数据的可用性,无论番禺或广州的机房发生断电、系统异常等情况,均能通过该灾备系统实现对数据的灾备保护。
案例三:兰州银行:
需求说明:随着行内业务规模的不断发展,互联网业务的安全运营及业务连续性要求也越来越严格,对互联网业务系统进行灾备建设迫在眉睫。目前兰州银行没有在灾备中心进行互联网业务的灾备内容,现有的灾备系统主要是账务类的核心系统等等级保护的系统。通过在灾备机房搭建一套互联网灾备虚拟化平台,用于互联网业务的灾备,通过灾备软件实现主生产中心业务数据实时备份到灾备中心。
(点击放大图像)
解决方案:整体设计采用VMware 虚拟化平台和英方i2Cloud 云灾备平台解决方案,按照兰州银行中心机房虚拟化平台建设为依据,在灾备中心同样搭建一套虚拟化云平台,通过i2Cloud 云灾备系统实现中心机房到灾备机房数据实时同步,保证互联网业务系统数据安全和高可用性。灾备虚拟化平台管理中心采用一套独立的vCenter,生产中心和灾备中心机房完全独立部署,灾备中心虚拟化架构设计完全按照兰州银行主数据中心虚拟化平台,生产中心机房和灾备中心机房虚拟化平台架构建设完全一样,即“影子系统”。灾备业务系统主要为“外网生产集群”到“灾备外网生产集群”,主要包括外网APP 和外网Web 应用业务系统。
案例四:中国能源建设集团
需求说明:随着各系统全面推广和深化应用,以及新业务系统的建设,公司的数据量将越来越大,对信息系统的依赖性越来越高,如财务核算系统每天的在线人数达700 多人,信息系统的业务连续性和数据安全性对公司的正常运转日趋重要。目前公司总部各信息系统仅通过运维人员每周一次的手动操作进行数据备份,数据备份管理工作分散而不便,随着数据量的增大,系统管理人员很难管理备份介质,一旦出现系统故障或病毒破坏,手动灾难恢复不仅费时,而且容易出错。数据自动备份解决方案是行业趋势,是数据安全的重要环节,建设备份系统是企业实现数据备份和灾难恢复的不二选择。
(点击放大图像)
解决方案:本地集中数据备份保护服务,以英方容灾备份技术为核心,利用其字节级的数据复制技术与持续数据保护技术将当前公司总部的需备份的信息系统,进行本地集中数据保护。英方将提供硬件一体机设备将各信息系统的数据库、数据文件等进行持续数据保护。在公有云端构建云灾备主机。利用英方字节级数据传输技术实现本地数据中心数据实时传输到云灾备主机中,将数据传输到公有云端保存。
谢谢大家!此外,我们今年联合业内资深的从业者出版了《2016 年中国灾备技术和行业白皮书》,以帮助行业内的从业人员进一步了解灾备技术和各行业的灾备特点和发展趋势。有需要的朋友,可以登录英方云 i2yun.com,咨询线上客服。
答疑环节
问:哪些行业的应用适用于英方云,英方云和普通灾备有哪些不同,英方云方案架构如何?
李光:以下行业均适用于英方云:
- 全球企业用户,中国中小企业用户、区域用户;
- 医疗行业用户、中国政府用户、制造业用户、金融行业用户、教育行业用户等;
- IDC 租赁企业用户、各个云公司云主机用户、互联网企业用户、企业宽带用户等;
- 个人 PC 用户、个人移动用户等。
基本涵盖所有数据和业务在私有云、公有云或者混合云上实现自由的流动、保护、应用和分享的需求用户。
英方云灾备软件的原理
(点击放大图像)
技术原理:采用字节级实时异步增量数据序列化传输技术,提供持续数据保护 CDP 智能化处理,使用高性能数据序列化差异校验技术,以及序列化数据库异步传输技术,实现数据库及各类数据 / 应用 / 系统的一致性灾难恢复,实现业务高可靠性和业务连续性。
I2 产品核心竞争力技术
- 字节级的复制
- 基于主机
- 变化量
- 仅仅复制数据的变化部分字节
- 实时异步复制
- 通过局域网或者广域网进行
- 云灾备
- 基于公有云 / 私有云的灾备
而传统灾备是基于某个应用(例如数据库、应用等)以全量 + 增量的方式备份在异地存储或带库的一种备份方式,具 RTO+RPO 时间长,恢复慢的特点,而且技术实现过于复杂。
英方云的方案架构:
一、云灾备、云备份与恢复
(点击放大图像)
方案说明:云端用户、物理机用户、集群环境用户均可以通过英方云把数据、应用等用实时数据复制的方式,可以独立存储数据,也可以共享数据,并基于任意历史时间点 CDP 恢复数据,部署简单,易于应用。
二、云迁移
(点击放大图像)
方案说明:云端用户、物理机用户、集群环境用户均可以通过英方云把系统(包括数据、应用等)用实时数据复制的方式,在线不停机的情况下进行迁移,部署简单,易于应用。
三、云高可用
(点击放大图像)
方案说明:方案说明:云端用户、物理机用户、集群环境用户均可以通过英方云把进行基于数据库、应用的实时动态监控,并且可以实现数据和业务的实施切换和秒级恢复,并且系统独立,应用独立,部署简单,易于应用。
问:如何保证企业应用快速平稳的迁移到云上?如何选择工具?
李光:利用英方的 i2 核心技术,可以保证企业系统(包括数据 + 应用)用英方的 i2move 产品实时数据复制的方式,在线不停机的情况下进行迁移,部署简单,易于应用,其中不介于是虚拟机或者物理机,只要有相同版本的操作系统和对应的存储空间,并且之间网络互通即可。在迁移过程中生产环境一直工作,当生产端和云端数据一致后,选择自动切换至云端并恢复业务即可,无需开发人员介入。
问:英方云如何保证灾备系统和虚拟机的可靠性,安全性?
李光:这也是基于英方云的核心技术,i2DOT 技术并且产品具有以下技术特性:
- 性能优异、配置丰富的重镜像
- I2 采用差异镜像,大大减少数据的传输量,从而大幅度提高重镜像的效率;
I2 支持多种文件校验方式,每种校验方式都有独特的应用场景:- 严格校验:通过计算工作机和灾备机上文件的 MD5 值,如果发现差异,只同步差异部分;
- 时间校验:首先比较工作机和灾备机两边文件的属性,如果属性不一致,则进行差异镜像该文件。
- 加密
- I2 支持高等级的 AES 加密,确保网络传输的数据安全
- 加密功能特别适合通过公共网络(比如 Internet)进行的灾备
- 一致性比较功能
- I2 可以比较工作机和灾备机两边的数据是否一致,并给出比较报告
问:混合云架构下的多种数据库情况下如何做双活?
李光:英方容灾高可用软件是基于系统层,而不在意其是混合云架构或者物理机架构,只要有系统层,我们会以字节级实时数据复制来保护其上的不同类型数据库,并依靠数据库日志一致性来保护数据文件一致性。
如果是数据库双活,需要基于英方的 i2active 产品,是基于数据库逻辑层面,以归档日志和 redolog 文件在多个数据库之间以 TCP/IP 网络来传输“交易日志”,并以异步实时方式传输,并在灾备端执行交易日志的 SQL 语句,实现数据库层面的双活。
问:对容灾的链路有什么要求?
李光:互联网带宽就可以,最低 2M 带宽也可以的。只要有网络,就一直会传数据,只要每天增量数据小于带宽承载量就没问题。
问:第一次很大量数据要传输呢?肯定得有一个同步过程啊。
李光:没关系,2M 带宽会一直捕获并传输数据。我们本地也有缓存,业务不是持续的,系统也不是无限大的,会 24 小时不停传输。
问:能不能够实现这样的功能,当被保护的客户端的特定目录产生了新文件,自动上传到云上,而客户端删除这个文件后,云端不删除,仅仅作为本地的备份?
李光:有啊,就是我们的 CDP 功能。
问:存储用的是什么?
李光:与存储无关,任何存储——哪怕是服务器硬盘。
问:云端会做数据持续保护吧?可以历史数据回滚?
李光:对的,CDP 就能实现。
问:英方云是你们自己的还是租恁的阿里云啊?
李光:英方云是我们自己的,可以登录 www.i2yun.com 查看。后台其实是租赁别人的 IDC,技术和前台是我们自己的。
问:CDP 有保护时间的限制吗?
李光:时间限制会根据存储空间来决定,是策略设置上的。
问:那利用你们的技术可以为客户搭建私有云吗?有的客户不放心公有云的安全?
李光:当然可以,公有云都可以做,私有云更容易实现。
问:自己搭的存储吗?用的是 OpenStack 吗?
李光:我们基于操作系统层面的,不是基于什么架构。
问:本地不需要新增设备了吧?只需在客户端上装上你们的客户端软件然后就上传至云端了,是这样吗?
李光:对,系统层面安装客户端软件就可以,本地不需要新增设备。
问:那如果本地有应用系统意外故障了,恢复业务要多久?你们的备份是包括操作系统在内的吗,还是只是针对一部分文件?
李光:本地业务故障了,容灾端本来就有一份数据,如果应用层网络可达,数据在 6 秒~ 数分钟就能接管;如果需要恢复,只需在生产端准备好服务器或虚拟机和网络,再从容灾段端往回恢复即可。
备份可以包括操作系统,也可以是单独数据库或应用。
问:接管的方式是从云端直接接管吗?能恢复至本地来吗?这还是云灾备的解决方案吧?
李光:往大说是云灾备,往小说就是一对一高可用异地接管。
问:云灾备能备份整台服务器吗?
李光:目前版本可以备份整台服务器。
问:官网的 i2copy 或 i2cdp 能够实现?
李光:i2availability 可以实现业务接管,i2coopy 和 i2cdp 还不行。
问:恢复至本地可以恢复至原物理机、虚拟机,都可以是吧,我只恢复某部分数据可以吗?
李光:当然可以恢复到物理机,虚拟机,如果只是恢复部分数据,是最基本的功能。
问:本地和云端做高可用,也是可以的对吧? 实时的那种双活。
李光:高可用不属于双活,还是主备接管的方式。如果实现数据库的双活,用 i2active 这个独立产品,可以异地异步方式保证数据库都可以读写访问。
问:如果我在本地服务器上和云端部署了 i2coopy,当本地服务器出现硬件故障,只要我在本地重新安装一台服务器,连接到云端,部署好 i2coopy,就可以恢复原来的系统、数据库和应用,这样理解正确吗?
李光:对的,i2coopy 只能恢复数据库和应用,i2availability 可以恢复系统(包括数据和应用)。
问:只需要装个客户端?
李光:对,装个客户端,由独立控制端来控制。
问:高可用是如何防止两个数据中心脑裂的?
李光:现在我们有第三个独立 IP 来判断,其次两个数据中心数据只有一份可以读写,另一端数据服务是不启动的,其实就是以文件方式存在,在同步软件实施保证数据一致性,有一个仲裁机器。
问:i2availability 是否包括了生产机数据实时传输到灾备机的功能?例如生产机的数据库产生了新的记录,能实时同步到灾备机吗?
李光:可以,i2availability 包含了系统迁移,数据误操作恢复,也就是 CDP,还包括 i2coopy 的最基本功能。
感谢魏星对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论