写点什么

如何避免 GitHub 那样断网 43 秒瘫痪 24 个小时?

  • 2019-08-30
  • 本文字数:862 字

    阅读完需:约 3 分钟

如何避免GitHub那样断网43秒瘫痪 24 个小时?

小蚂蚁说:

蚂蚁金服自研的金融级分布式关系型数据库 OceanBase 的高可用及容灾能力在发生城市级故障时,让系统秒级完成智能切换,实现自愈,用户的资金、数据 0 丢失。


今日,GitHub 技术负责人 Jason Warner 的一篇技术深度解析稿成为 IT 圈爆款。文中,Jason 坦诚地对外讲述了 10 月 21 日 100G 光缆设备故障后,Github 服务降级的应急过程以及反思总结。


从 Jason Warner 的文章中不难看出,造成断网 43 秒瘫痪 24 小时的罪魁祸首是数据库。由于部署在两个数据中心的数据库集群没有实时同步。意外发生时,Github 的工程师担心数据丢失,不敢快速将主数据库安全切换到东海岸的备份数据中心。



程序员们在 GitHub 这篇“忏悔录”下面留言,表达对数据库集群的“哀悼”。但更多 IT 从业者关心的问题是,如何避免这样的灾难事件降临到自己的公司,自己维护的系统。


蚂蚁金服 OceanBase 分布式数据库专家认为,此次 Github 事件是典型的城市级故障。如果系统采用的是高可用的三地五中心解决方案,就可以自如应对。


就在一个月前,今年的杭州云栖大会上,蚂蚁金服副 CTO 胡喜现场模拟剪断支付宝近一半的服务器光缆。只用了 26 秒,模拟环境中的支付宝就完全恢复了正常,这背后即是 OceanBase 城市级别故障的自愈能力。



原来,Github 类似银行采用的传统数据库两地三中心模式,即“主库(主机房)+同城热备库(同城热备机房)+异地灾备库(异地灾备机房)”。这种方式下通常只有主机房的服务器能提供写服务。如果主城市出现城市级故障,灾备城市的数据库虽然可以工作,但由于没有同步的最新数据,因此灾备库的数据是有损的。


但在三地五中心部署下,任何单个城市故障,OceanBase 都不会停止服务,数据也不会有任何损失。


Github 表示,为了保证数据完整性,他们不得不牺牲恢复时间。其实,这个问题采用三地五中心方案可以更好的应对。城市故障时,OceanBase 只要活着的两个城市的三个机房两两之间能够通信,就可以正常服务,也不会有任何的数据损失。


本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。


原文链接:


https://mp.weixin.qq.com/s/29cwS71iKVLhZ_6YgS-rRQ


2019-08-30 16:023603
用户头像

发布了 150 篇内容, 共 34.4 次阅读, 收获喜欢 38 次。

关注

评论

发布
暂无评论
发现更多内容

探索生成式人工智能的前景

高端章鱼哥

人工智能 AIGC 生成式人工智能

Premiere Pro 2023 for Mac(pr2023视频编辑软件)v23.6中文激活版

mac

pr2023 苹果mac Windows软件 视频编辑软件 Premiere Pro

软件测试/测试开发丨Python 学习笔记 之 链表

测试人

Python 程序员 软件测试 自动化测试 测试开发

GitHub Copilot三连更:能在代码行里直接提问,上下文范围扩展到终端

Openlab_cosmoplat

人工智能

PHP/MySQL开发环境 MAMP Pro for Mac激活安装

胖墩儿不胖y

Mac软件

HarmonyOS“一次开发,多端部署“优秀实践——玩机技巧,码上起航

HarmonyOS开发者

HarmonyOS

面试了38位Java候选人之后,我总结出了他们关于面试中的16条通病

程序员小毕

Java 程序员 面试 简历 八股文

低代码开发平台如何提升企业应用构建效率

力软低代码开发平台

TDD、BDD、ATDD都是什么、有什么区别?(上)

禅道项目管理

朝夕光年游戏自动化测试实践

字节跳动技术范儿

测试 自动化测试 游戏测试

华为云软件精英实战营——感受软件改变世界,享受Coding乐趣

华为云PaaS服务小智

软件开发 华为云 大赛

软件测试/测试开发丨UI自动化测试用例结构分析

测试人

Python 程序员 软件测试 自动化测试 测试开发

大数据平台与数据仓库的五大区别

行云管家

大数据 数据仓库 数据安全 大数据平台

如何使用io_uring构建快速响应的I/O密集型应用?

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

Graph + LLM 实践指南|如何使用自然语言进行知识图谱构建和查询

悦数图数据库

数据库 图数据库

万界星空科技|免费开源MES系统|自动排产管理

万界星空科技

开源 MES系统

智能汽车驾驶演进:虚拟ECU种类与优劣分析

DevOps和数字孪生

虚拟ECU 汽车行业

MegEngine 使用小技巧:Profiler使用手册

MegEngineBot

开源 性能优化

DR5018M|IPQ5018 11AC SOM WIFI6 Pioneering the Future of Wireless Innovation

wallyslilly

wifi6 ipq5018

直播预告!生鲜与零售商品识别系统产业实践与部署详解

飞桨PaddlePaddle

人工智能 百度飞桨 硬件生态

低代码/无代码平台:加速应用开发的工具

高端章鱼哥

低代码 快速开发 无代码 JNPF

九科信息成功签约东风汽车财务有限公司RPA项目

九科Ninetech

AI技术图像编辑 Luminar Neo for Mac激活中文

mac大玩家j

图像编辑 Mac软件 编辑图像 图像处理工具

大数据平台三大优势详解-行云管家

行云管家

数据库 大数据 数据安全 大数据平台

没有永远的王者…Zig替代C,将成定局!

互联网工科生

C语言 C++ Zig语言

关于信创技术你需要了解这些概念

Onegun

操作系统 中间件 信创产业 信创生态

Data Rescue Pro for Mac(磁盘数据恢复工具) v6.0.8中文版

mac

数据恢复软件 苹果mac Windows软件 Data Rescue

OLAP数据库引擎怎么选?这本白皮书详解

Geek_2d6073

如何避免GitHub那样断网43秒瘫痪 24 个小时?_文化 & 方法_Geek_cb7643_InfoQ精选文章