在ArchSummit深圳2019大会上,刘俊讲师做了《陆金所机房一键切换平台建设》主题演讲,主要内容如下。
演讲简介:
陆金所于 2017 年 11 月完成同城双活机房建设,在闭环 CMDB 和运维自动化变更云平台建设完成的基础上,为保证机房发生灾难情况下,将业务影响降至最低,陆金所技术运营部于 2018 年 4 月份启动了机房一键切换项目。
2018 年 12 月 1 日,陆金所用 4 分 38 秒成功将网站所有服务进行机房级切换演练(包含 1429 个应用系统,120 个 DB 实例,310 个外部网关,3100 个 job,11 个 A/S 应用,文件服务等核心架构组件),达成机房一键切换的设计目标。
2018 年 12 月 22 日,陆金所利用一键切换平台将主机房从宝信切换至外高桥机房。2019 年 3 月 30 日,陆金所将主机房从外高桥切换至宝信机房,耗时缩短到 4 分 05 秒。一键切换平台的完成,代表陆金所具备机房级容灾 5 分钟内恢复的能力,达到业界领先水平。
演讲提纲:
1、设计目标:
在宝信机房正常提供服务的情况下,通过一键切换平台 10 分钟内切换宝信机房至外高桥。
2、项目挑战:
全站 1400+应用系统,100 套+DB 实例,300+大网关,3000+job 调度,梳理 A/S 应用(数量庞大,架构复杂,系统多样)
数据一致性保障,CMDB 自动化闭环,自动化平台重构,一键切换多任务并发执行时效,时效要求高(技术框架改造量大)
生产应用标准化改造工作量大(历史遗留问题多)
3、设计方案关键点:
双活机房有状态的服务需要可以在机房之间做灵活切换
服务经全面梳理确认为 7 大类型
7 大服务切换需要反复生产验证,确保接口健壮性
机房切换需分批次,逐步加量验证
DB 切换涉及百套以上 DB,Oracle/MySQL/Redis 都需要完成切换目标
一键切换平台需具备高可用/权限控制/切换过程输出/服务展示/切换进度/自动检查/CMDB 闭环等功能
听众受益点:
陆金所的运维自动化的根本实现原则是分而治之,大而化小
每个服务目录,无论是复杂的组合操作还是简单的原子操作,都统一遵循以上 4 步流程
所有涉及的元数据都要求从 CMDB 中获取,完成变更后所有变化也需要反应到 CMDB 中从而形成闭环
变更流程的所有细节都需要在变更设计阶段却确定并提交到相关审批流程中(切换过程自动化审批)
变更的执行要求全生命周期管理,过程中的状态以及产生的所有日志都会留存并提供用户实时查询与相关干预操作
讲师介绍:
刘俊
陆金所 技术运营部运维开发团队经理
2016 年 4 月入司至今,先后在规划管理团队和运维开发团队担任资深架构师、团队经理职务。负责陆金所核心 IT 技术运营系统的建设与保障工作,负责陆金所 DevOps 核心运营流程与工具链的持续优化改进以及技术运营相关业务的技术选型、方案制定与架构设计。同时也负责 IT 技术体系可用率保障的相关技术工作。
完整演讲 PPT 下载链接:
https://archsummit.infoq.cn/2019/shenzhen/schedule
评论