写点什么

腾讯云详解宕机故障:光纤挖断后的 150 秒

  • 2019-03-25
  • 本文字数:1355 字

    阅读完需:约 4 分钟

腾讯云详解宕机故障:光纤挖断后的150秒

3 月 23 日下午 4 点左右,腾讯多个产品出现大规模宕机,暖暖、QQ 飞车,王者荣耀,吃鸡等 90 多个服务受到影响。下午四点半,腾讯云发布公告称:各位用户,2019 年 03 月 23 日 16 时左右,因上海当地网络运营商光纤线路大面积故障,腾讯多个产品业务受到影响。目前运营商正在紧急抢修中,我们也正在积极做容灾处理,业务陆续恢复中。后续恢复进展会及时向各位公布。


3 月 25 日,腾讯云官方微信号发布《光纤挖断后的150秒》正式回应此次宕机事件,笔者摘录了部分内容:


3 月 23 日下午,上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。


“大概是从下午 3 点左右开始吧,网吧里面就有不少用户反馈,多款游戏开始出现掉线,无法登陆,甚至无法充值等情况。”来自上海的南汇区的一位网友在微信群里吐槽。这并非个别情况。随即不少群友开始接连反馈遇到类似的问题。


与互联网用户的慌乱鲜明形成对比的是,不少企业用户的情况却相对稳定。据腾讯云的一位用户反馈,故障发生后,他们运维人员立即启动监测,但是未发生业务掉线。


下午 4 点 52 分,腾讯云率先对外公告称,腾讯云平台在 2019 年 03 月 23 日监控到上海电信用户访问腾讯云外网有抖动,目前已经逐渐恢复。


在云服务越来越普及的今天,如何在面对网络故障的情况下,尽可能保证服务的稳定性和连续性,是所有企业都需要重视的问题。

启动智能化流量调度系统

当天下午,腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降。腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部 T 级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。


从架构上看,腾讯云公网流量智能调度系统,一方面通过接口自动执行并反馈管理台下发的各种调度和控制信息;另一方面和公网出口设备建立 BGP(公网路由协议)连接,通过采集设备路由信息,根据调度需求向不同路由设备下发流量调度命令,从而实现领先的公网自动化流量工程技术。


此次光纤故障,腾讯云从发现到恢复故障,全程花费了 2 分钟(抖动时间:14:40:15-14:42:45),并且所有流程自动化执行,在 150 秒之内恢复网络。

“四纤三路由”高冗余架构

能否做到上述效果与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。


首先,腾讯云在基础设施的高可用方案为网络的平稳运营提供了重要前提和支撑。腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供可靠的风火水电物理全隔离,同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证用户的网络高可用性和稳定性。


另外,从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计。什么意思呢?通俗一点来说就是腾讯云每个可用区与可用区之间都采用 3 条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在 50 毫秒级自动切换。



腾讯云四纤三路由高度冗余架构


除此之外,腾讯云波分系统中部署有光时域反射仪,在产生光缆中断时,系统可以主动探测光缆具体中断情况,第一时间精准定位光缆中断的具体位置,并及时反馈给运营商,为此次光缆的顺利修复提供非常准确的信息。


2019-03-25 11:505551
用户头像

发布了 497 篇内容, 共 325.4 次阅读, 收获喜欢 1921 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

Pro 单店版和多店版,你还傻傻分不清楚?

CRMEB

面对裁员?焦虑?不如好好投资自己

沃德

程序员 7月月更

自己搭建git服务器:linux自己Gitlab服务

zhoulujun

gitlab git私有参考 git部署 git服务端

6月月更开奖!速来领取你的奖品!

InfoQ写作社区官方

热门活动 6月月更

5G NR RRC连接控制

柒号华仔

5G 7月月更

GaussDB云数据库初步使用记录

DS小龙哥

7月月更

【LeetCode】奇数值单元格的数目Java题解

Albert

LeetCode 7月月更

纯CSS实现四种方式文本反差色效果

南城FE

CSS 前端 css动画 7月月更 反差色

Qt|字符排序以及转化问题

中国好公民st

qt 7月月更

新思科技助力提升开源治理水平

InfoQ_434670063458

开源 新思科技 软件供应链

新思科技聚焦开源治理 助力提升中国开源产业安全及合规水平

InfoQ_434670063458

开源 软件 供应链 新思科技

Node.js异步编程之Promise

是乃德也是Ned

node.js 前端 7月月更

《看完就懂系列》聊聊CSS3的 calc() 函数

南极一块修炼千年的大冰块

7月月更

软件架构-概述

架构

阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIX ATC'22

阿里云大数据AI技术

深度学习 分布式训练 异构计算

老司机狂飙之路--EventBus原理简要分析

芝麻粒儿

android EventBus 7月月更

在线直播系统源码——开源源码

开源直播系统源码

软件开发 直播源码 开源源码 在线直播系统源码

QT实现 文件夹复制

小肉球

qt 7月月更

TDesign 组件库技术方案指北

TDesign

开源 Vue React 组件库

Qt | 串口通信 QSerialPort

YOLO.

通信 qt 串口 串口通信 7月月更

RocketMQ之消费者启动与消费流程

vivo互联网技术

RocketMQ 中间件 ACK

多传感器时间同步

秃头小苏

时间同步 7月月更

项目git commit时卡主不良代码:husky让Git检查代码规范化工作

zhoulujun

git husky lint-stated

大数据基础知识介绍

Lansonli

大数据 7月月更 大数据基础

适合初学者的 10 个JavaScript 代码整洁技巧

devpoint

JavaScript ES6 7月月更 数据操作

Java面向对象基础

五分钟学大数据

Java 7月月更

注意!软件供应链安全挑战持续升级

SEAL安全

安全 软件供应链

查找——概念了解

乔乔

7月月更

iOS 中的 Category

NewBoy

ios 前端 移动端 iOS 知识体系 7月月更

不习惯的Vue3起步四 の 生命周期&provide/inject

空城机

Vue3 7月月更

SLSA 框架与软件供应链安全防护

SEAL安全

SLSA 软件供应链安全

腾讯云详解宕机故障:光纤挖断后的150秒_服务革新_田晓旭_InfoQ精选文章