写点什么

UCloud 首尔机房整体热迁移是这样炼成的

  • 2019-11-11
  • 本文字数:5218 字

    阅读完需:约 17 分钟

UCloud首尔机房整体热迁移是这样炼成的

2018 年下半年,UCloud 首尔数据中心因外部原因无法继续使用,需要在很短时间内将机房全部迁走。为了不影响用户现网业务,我们放弃了离线迁移方案,选择了非常有挑战的机房整体热迁移。经过 5 个月的多部门协作,终于完成了既定目标,在用户无感知下,将所有业务完整迁移到同样位于首尔的新机房内。


本文将详述这个大项目中最有难度的工作之一:公共组件与核心管理模块迁移的方案设计和实践历程。

计划

整个项目划分为四个大阶段(准备阶段、新机房建设、新旧迁移、旧机房裁撤下线)。正如一位同事的比喻,机房的热迁移,相当于把一辆高速行驶高铁上的用户迁移到另一辆高速行驶的高铁上,高铁是我们的机房,高铁上的用户是我们的业务。要让迁移可行需要两辆高铁相对静止,一个方法是把两辆高铁变成一辆,如此两者速度就一致了。UCloud 机房热迁移采用类似方案,把两个机房在逻辑上变成一个机房。为此,上层的业务逻辑要在新老机房间无缝迁移,下面的管理系统也要统一成一套。


其中,我们 SRE 和应用运维团队主要负责以下几个工作:1)机房核心 zookeeper 服务的扩缩容服务;2)核心数据库中间层 udatabase 服务的部署和扩容;3)大部分管理服务的部署和迁移;4)核心数据库的部署和迁移。以上涉及到前期规划、方案设计、项目实施、稳定性保证、变更校验等所有方面。

挑战

我们刚接到机房整体热迁移需求时,着实有些头疼,首尔机房属于较早期部署的机房之一,相关的技术架构比较老旧。而核心数据库、核心配置服务(zookeeper)、核心数据库中间层(udatabase)等几个服务都是比较重要的基础组件,老旧架构可能会因为基础层面的变动发生复杂的大范围异常,从而影响到存量用户的日常使用。


幸好 SRE 团队在过去一年里,针对各种服务的资源数据进行了全面的梳理,我们开发了一套集群资源管理系统(Mafia-RMS) ,该系统通过动态服务发现、静态注册等多种手段,对存量和增量的服务资源进行了整理,每一个机房有哪些服务、集群,某个集群有哪些服务器,每一个实例的端口、状态、配置等信息,都记录到了我们的资源管理系统中,如下图所示:



图 1: UCloud SRE 资源管理系统-集群管理功能


通过 SRE 资源管理系统,可以清楚地知道首尔机房存量内部服务的集群信息、每个实例的状态。我们基于 SRE 资源系统还构建了基于 Prometheus 的 SRE 监控体系,通过上图右侧 Monitor 按钮就可以跳转到监控页面,获取整个业务的实时运行状况。


有了这些资源数据之后,剩下的就是考虑怎么进行这些服务的扩容和迁移工作。

ZooKeeper 服务的扩缩容

首先是内部服务注册中心 zookeeper 的扩缩容。


UCloud 内部大规模使用 zookeeper 作为内部服务注册和服务发现中心,大部分服务的互访都是通过使用 zookeeper 获取服务注册地址,UCloud 内部使用较多的 wiwo 框架(C++) 和 uframework (Golang) 都是基于主动状态机定时将自己的 Endpoint 信息注册到 zookeeper 中,相同 Endpoint 前缀的服务属于同一个集群,因此对于某些服务的扩容,新节点使用相同的 Endpoint 前缀即可。wiwo 和 uframework 两个框架的客户端具备了解析 zookeeper 配置的能力,可以通过对 Endpoint 的解析获取到真实的 IP 和端口信息。然后通过客户端负载均衡的方式,将请求发送到真实的业务服务实例上去,从而完成服务间的相互调用。如下图所示:



图 2:UCloud 首尔机房部署调用及服务注册/发现路径图


首尔老机房的 zookeeper 集群是一个具有 3 个节点的普通集群(当时规模相对较小,3 个节点足够)。 然而首尔新机房的规模要大很多,因此新机房 zookeeper 的集群规模也要扩充,经过我们的评估,将新机房的 zookeeper 集群扩充到 5 个节点,基本上可以满足所需。


其实,一个理想的迁移架构应该是如图 3 所示,整个新机房使用和老机房相同的技术架构(架构和版本统一),新架构完全独立部署,与老机房并没有数据交互工作,而用户的业务服务(如 UHost/UDB/EIP/VPC 等)通过某种方式平滑的实现控制和管理面的迁移,以及物理位置的迁移工作。



图 3:理想状态下的老旧机房服务迁移示意图


但是理想状态在现实中无法达到,内部架构和代码逻辑的限制,导致业务实例无法平滑实现逻辑和控制层面的迁移,更何况物理层面的迁移。新部署的管理服务需要和老机房的管理服务进行通信,因此,我们调整了新机房服务的部署架构,并适配实际情况分别使用两种部署模式,如图 4 和图 5 所示:



图 4: 同集群扩容模式的跨机房服务部署



图 5: 新建集群灰度迁移模式的跨机房服务部署


无论是图 4 的同集群扩容模式,还是图 5 的新建集群灰度迁移模式,在 zookeeper 层面必须让新旧机房的 zookeeper 集群处于一体的状态,需要两个集群的数据一致、实时同步。因此在 zookeeper 的技术层面,必须将这两个集群变成一个集群,将原有的 3 节点的 zookeeper 集群,经过异地机房扩容的方式扩充到 8 个节点(1 个 leader,7 个 follower),只有这种模式下数据才能够保持一致性和实时性。


而对于新机房新部署的需要注册的服务来说,他们的配置文件中对于 zookeeper 地址的配置,却不是新建的 8 个 ip 的列表,而是只配置新机房 5 个 IP 的列表。这样新老机房的后端服务使用同一套 zookeeper,但是配置的却是不同的 IP,这样做的目的,是为了后续老机房下线裁撤时,所有新机房的服务不需要因为 zookeeper 集群的缩容而重启更新配置,只要将集群中老机房所在的 3 个节点下线,剩余 5 个节点的配置更新重新选主即可。


因此在 zookeeper 的机房扩容方案上,我们采用了先同集群扩容后拆分的模式。zookeeper 的扩容是整个机房扩建的第一步,后续所有的服务都会依托于该操作新建的 5 个节点的 zookeeper 配置;而 zookeeper 集群的缩容是最后的操作,待所有的服务都扩容完成,所有业务实例迁移完成之后,将 zookeeper 集群进行缩容重新选主,这样即可完成整个机房的裁撤。

数据库中间层 udatabase 的迁移

接下来是数据库中间层 udatabase 的迁移工作。


图 4 和图 5 两种模式对于 zookeeper 的处理方式是相同的,不同点在于后端对于内部管理和控制面服务的扩容迁移方式。udatabase 迁移使用图 4 模式,这种模式下相当于在原有的集群进行异地机房扩容,扩容的新实例使用和原有集群相同的 Endpoint 前缀,也就是说它们是属于同一个集群,当服务启动后,新扩容的实例的状态会与原有集群的实例相同,框架(wiwo 或 uframework)层会通过客户端方式从 zookeeper 中发现到该集群节点的变化(新增),同时使用某种负载均衡算法将请求流量路由到新的节点上。这样属于同一个集群,但却处于两个地址位置的实例都有部分流量,而进行缩容的方式就是直接将老机房同集群的服务下线即可,这样客户端就会将所有该集群的流量都转发到新机房扩容的节点上,从而完成平滑的服务扩容。udatabase 通过这样的方式完成了集群的迁移过程。

新建集群灰度迁移模式

其实图 4 模式对于大部分服务来说都是可行的,但为什么还出现了图 5 所示的新建集群灰度迁移模式呢?因为某些场景下图 4 会有一定的不可控性。假如新建的实例(如图 4 中 Service A Instance 2)存在软件稳定性和可靠性的问题,比如配置异常、软件版本异常、网络异常,可能导致路由到新节点的请求出现问题,会直接影响在线业务,影响的规模由扩容的节点占集群总节点的比例决定,像我们这种 1:1 的扩容方式,如果服务有问题可能 50%的请求就直接异常了。udatabase 使用图 4 方案,是因为其代码的稳定性比较高,功能和配置比较简单,主要依托于其高性能的转发能力。


而对于某些功能逻辑都比较复杂的业务来说(如 ULB/CNAT),就使用了更稳妥的图 5 模式,由于业务层面支持跨集群迁移,因此可以新建一个全新的无业务流量的集群,该集群在 zookeeper 中的 Endpoint 路径前缀和原有的集群不相同,使用一个全新的路径,然后在业务层面,通过迁移平台或工具,将后端服务或实例按需迁移,整个过程可控,出现问题立刻回滚,是最安全的迁移方案。我们通用的灰度迁移平台 SRE-Migrate 如图 6 所示。



图 6:UCloud 内部通用业务迁移系统 SRE-Migrate

机房部署平台 SRE-Asteroid

UCloud 产品线和产品名下服务数量繁多,无论是图 4 还是图 5 的方案,都需要大量的服务部署工作。SRE 团队在 2018 年中推进的机房部署优化项目,意在解决 UCloud 新机房建设(国内及海外数据中心、专有云、私有云等)交付时间长和人力成本巨大的问题,2018 年底该项目成功产品化落地,覆盖主机、网络等核心业务近百余服务的部署管理,解决了配置管理、部署规范、软件版本等一系列问题。首尔机房迁移也正是利用了这一成果,才能够在很短的时间内完成近百个新集群的部署或扩容工作,图 7 所示就是我们的新机房部署平台 SRE-Asteroid。



图 7:UCloud 内部机房部署平台 SRE-Asteroid

核心数据库的部署和迁移

最后,是核心数据库层面的部署和迁移工作如何进行。UCloud 内部服务所使用的数据库服务为 MySQL, 内部 MySQL 集群采用物理机/虚拟机在管理网络内自行建设,以一个主库、一个高可用从库、两个只读从库和一个备份库的方式部署,使用 MHA+VIP 的方式解决主库的高可用问题,使用 BGP/ECMP+VIP 的方式解决从库的负载均衡和高可用问题,大体的架构如图 8 所示:



图 8:UCloud 内部 MySQL 服务架构图


首尔新老机房使用的内部 MySQL 数据库集群的架构跟上图类似,为了进行新老机房的集群切换,我们设计了如下的方案,如图 9 所示:



图 9:首尔集群内部数据库集群迁移示意图


整体来说,为了保证核心数据库集群能够稳定完成迁移工作,我们抛弃了双主库、双写的切换方案,防止因为网络或其他因素导致新老集群的数据不一致、同步异常等问题。我们采用了最简单的解决方案,在业务低峰期停止 console 服务,直接修改数据库中间层配置切换的方案。


在部署阶段,我们在首尔新机房部署了相同高可用架构的 MySQL 集群,老机房的数据库逻辑备份导入,将新老机房的集群做成级联模式(图 9 中绿色虚线),新机房的主库作为老机房的从库,通过 MySQL 异步同步的方式(binlog)进行数据同步。我们使用 pt-table-checksum 工具,定期对两个集群的数据一致性进行校验,以保证新老机房的数据完全一致。与此同时使用内部开发的拓扑分析工具,将所有调用老集群数据库主从库的业务情况确认清楚(主要是哪些 udatabase 集群)。


部署完成后,数据一致性和实时性通过级联得到保障,udatabase 仍然访问老机房的 MySQL 主库的 VIP(图 9 蓝色虚线),此时并没有业务通过直连的方式写入新机房的主库(为保证数据的一致性,新机房的主库暂时设置成只读模式)。


在确定迁移时间和迁移方案之后,在某个业务低峰期的时间点,公告用户后,首尔机房整个 console 的操作停止一段时间(期间首尔机房的 API 请求可能会失败),在确定流量很低的前提下,通过修改数据库中间层(udatabase cluster)中数据库主从库 VIP 的配置,将业务从老机房 MySQL 集群切换到新机房 MySQL 集群,此时该业务所有的请求都会流入到新集群(图 9 红色虚线)。为了防止老集群仍然有业务写入或读取,我们将老集群主库设置为只读,然后继续通过 tcpdump 抓包分析老集群上可能存在的请求并手动处理,最终保证所有业务都使用新的 MySQL 集群。


由于需要对主机、网络、存储和监控等几个业务都进行集群切换,为保证不互相影响,使用逐个集群处理的方式,整体切换加检测的时间耗时近 1 个小时。


在整个机房切换的过程中,只有数据库集群是有状态的业务,因此重要性和危险性也比较高,该服务切换完成后,最重要的一个环节也宣告完成,剩下的业务层面(UHost/UDB/EIP 等)的迁移工作由各个业务团队自行完成即可。

收尾

最终所有业务实例完成迁移后,理论上就可以完成本次机房迁移工作了,不过还是要对老机房仍然运行的实例进行流量监测,确认没有流量后进行下线,停止服务。最后对老机房的 zookeeper 集群(老机房的 3 个 zookeeper 节点)进行请求监测和连接监测,确认没有本机房以及新机房发来的请求(排除 zookeeper 集群自主同步的情况),在完成确认后,进行最后的 zookeeper 集群变更,将整个集群(8 个节点)拆分成老机房(3 个节点)和新机房(5 个节点),老机房的集群直接停止服务,而新机房的新的 zookeeper 集群完成新的选主操作,确认同步正常和服务正常。

写在最后

经历了上文所述的一切操作后,整个首尔机房的迁移工作就完成了,整个项目历经 5 个月,其中大部分时间用于业务实例的迁移过程,主要是针对不同的用户要确定不同的迁移策略和迁移时间;内部管理服务的迁移和部署所花费的时间还是比较少的。UCloud 内部针对本次迁移的每一个步骤都制定了详细的方案规划,包括服务依赖分析、操作步骤、验证方式、切换风险、回滚方案等,为了完成如此巨大的新机房热迁移工作,团队投入了充足的人力和时间。首尔新机房具有更好的建设规划、硬件配置和软件架构,能够为用户提供更好的服务,我们相信这一切都是很有价值的。


本文转载自公众号 UCloud 技术(ID:ucloud_tech)。


原文链接:


https://mp.weixin.qq.com/s/XVi8F8pfZfxZpgwUr7RjjQ


2019-11-11 15:53758

评论

发布
暂无评论
发现更多内容

CleanMyMac4.12.3中文版如何汉化免费?

茶色酒

CleanMyMac4.12.3

阿里巴巴最新版“Java性能优化实践文档来袭”把性能优化玩的出神入化

架构师之道

Java 编程 性能优化

架构训练营第10期模块5作业

Geek_4db2d5

深度学习快速上手——基于 MegEngine 的 LeNet 快速训练与部署

MegEngineBot

深度学习 开源 MegEngine

通用池化框架commons-pool2功能拓展

FunTester

软件测试/测试开发 | 如何使用代理配置快速定位接口测试脚本问题?

测试人

软件测试 自动化测试 接口测试 测试开发

Lattice - 模式级复用的能力定义

原力在线

架构 lattice 高可扩展

Databend 内幕大揭秘第二弹 - Data Source

Databend

人人都在聊的云原生数据库Serverless到底是什么?

华为云开发者联盟

数据库 Serverless 云原生 华为云 GaussDB

嘉为蓝鲸IT服务管理解决方案入选2022广东省政务服务创新解决方案

嘉为蓝鲸

自动化运维 嘉为蓝鲸 IT服务管理中心

在Spring异步线程池中自动传递上下文,这样写轻松又方便

程序员拾山

Spring Boot #java

nCompass为医疗行业信息安全穿上“铠甲”

智维数据

大数据 数据可视化 智能运维 应用交付 流量分析系统

30+亮眼指标,看看2022年嘉为蓝鲸的逆势创新之路!

嘉为蓝鲸

自动化运维 嘉为蓝鲸 2022大事件

Studio One6永久免费版本下载安装包

茶色酒

Studio One6

树与二叉树深度剖析(二)

C++后台开发

数据结构 算法 二叉树 红黑树 Linux服务器开发

华为云发布冷启动加速解决方案:助力Serverless计算速度提升90%+

华为云开发者联盟

Serverless 华为云 冷启动 Cold Start 进程级快照

安全事件溯源分析场景

智维数据

大数据 数据可视化 智能运维 应用交付 流量分析系统

从人工分析到智能分析,流量分析如何快速上手?

智维数据

智能运维 应用交付 可视化数据 流量分析系统

启科 QuTrunk+Runtime+QuSaaS+亚马逊云科技量子计算编程实战

亚马逊云科技 (Amazon Web Services)

Python 量子计算 Amazon EC2 Hero 专栏 Amazon Braket

MySQL:如何给字符串加一个高效索引?

程序员拾山

MySQL

设计模式之装饰者模式

程序员大彬

Java 设计模式

中国国际电子商务中心与易观分析联合发布:2022年3季度全国网络零售发展指数同比增长1.5%

易观分析

零售 电商

Perfkit - 性能分析与测量工具集

王玉川

Linux 性能优化 Dockerfile ebpf perf

C++ Lambda表达式

王玉川

c++ Lambda

软件测试/测试开发 | 接口自动化测试中,文件上传该如何测试?

测试人

软件测试 自动化测试 接口测试 测试开发 文件上传

栉风沐雨 韧性前行 | 2022年九科大事件

九科Ninetech

RPA 超自动化 流程挖掘

谈谈enabled_shared_from_this

SkyFire

c++ 智能指针

Golang如何优雅接入多个远程配置中心?

王中阳Go

golang 高效工作 学习方法 后端 viper

“零信任”下的防火墙策略管理

智维数据

大数据 防火墙 数据可视化 智能运维 运维安全

性能优化 - 访问局部性

王玉川

c++ 性能 cpu 访问局部性

性能优化 - 伪共享

王玉川

c++ 缓存 性能 cpu

UCloud首尔机房整体热迁移是这样炼成的_服务革新_赵新宇_InfoQ精选文章