QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

腾讯云详解宕机故障:光纤挖断后的 150 秒

  • 2019-03-25
  • 本文字数:1355 字

    阅读完需:约 4 分钟

腾讯云详解宕机故障:光纤挖断后的150秒

3 月 23 日下午 4 点左右,腾讯多个产品出现大规模宕机,暖暖、QQ 飞车,王者荣耀,吃鸡等 90 多个服务受到影响。下午四点半,腾讯云发布公告称:各位用户,2019 年 03 月 23 日 16 时左右,因上海当地网络运营商光纤线路大面积故障,腾讯多个产品业务受到影响。目前运营商正在紧急抢修中,我们也正在积极做容灾处理,业务陆续恢复中。后续恢复进展会及时向各位公布。


3 月 25 日,腾讯云官方微信号发布《光纤挖断后的150秒》正式回应此次宕机事件,笔者摘录了部分内容:


3 月 23 日下午,上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。


“大概是从下午 3 点左右开始吧,网吧里面就有不少用户反馈,多款游戏开始出现掉线,无法登陆,甚至无法充值等情况。”来自上海的南汇区的一位网友在微信群里吐槽。这并非个别情况。随即不少群友开始接连反馈遇到类似的问题。


与互联网用户的慌乱鲜明形成对比的是,不少企业用户的情况却相对稳定。据腾讯云的一位用户反馈,故障发生后,他们运维人员立即启动监测,但是未发生业务掉线。


下午 4 点 52 分,腾讯云率先对外公告称,腾讯云平台在 2019 年 03 月 23 日监控到上海电信用户访问腾讯云外网有抖动,目前已经逐渐恢复。


在云服务越来越普及的今天,如何在面对网络故障的情况下,尽可能保证服务的稳定性和连续性,是所有企业都需要重视的问题。

启动智能化流量调度系统

当天下午,腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降。腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部 T 级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。


从架构上看,腾讯云公网流量智能调度系统,一方面通过接口自动执行并反馈管理台下发的各种调度和控制信息;另一方面和公网出口设备建立 BGP(公网路由协议)连接,通过采集设备路由信息,根据调度需求向不同路由设备下发流量调度命令,从而实现领先的公网自动化流量工程技术。


此次光纤故障,腾讯云从发现到恢复故障,全程花费了 2 分钟(抖动时间:14:40:15-14:42:45),并且所有流程自动化执行,在 150 秒之内恢复网络。

“四纤三路由”高冗余架构

能否做到上述效果与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。


首先,腾讯云在基础设施的高可用方案为网络的平稳运营提供了重要前提和支撑。腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供可靠的风火水电物理全隔离,同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证用户的网络高可用性和稳定性。


另外,从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计。什么意思呢?通俗一点来说就是腾讯云每个可用区与可用区之间都采用 3 条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在 50 毫秒级自动切换。



腾讯云四纤三路由高度冗余架构


除此之外,腾讯云波分系统中部署有光时域反射仪,在产生光缆中断时,系统可以主动探测光缆具体中断情况,第一时间精准定位光缆中断的具体位置,并及时反馈给运营商,为此次光缆的顺利修复提供非常准确的信息。


2019-03-25 11:505604
用户头像

发布了 497 篇内容, 共 331.0 次阅读, 收获喜欢 1925 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

毕业设计:设计秒杀电商系统

jiaoxn

「架构实战营」

毕业总结

天琪实刚亮

【安全攻防】序列化与反序列,你了解多少?

网络安全学海

黑客 网络安全 安全 信息安全 渗透测试

一个漂亮的API文档生成工具

为自己带盐

7月月更

透过JVM-SANDBOX源码,了解字节码增强技术原理

柠檬汁Code(binbin0325)

互联网架构 源码剖析 字节码增强 源码解读 Java’

聊聊支付流程的设计与实现逻辑

Java 架构

模块九作业

天琪实刚亮

分布式CAP理论

源字节1号

软件开发 后端开发

leetcode 121 Best Time to Buy and Sell Stock 买卖股票的最佳时机(简单)

okokabcd

LeetCode 动态规划 算法与数据结构

封装Ajax

Jason199

ajax 7月月更

【LeetCode】在每个树行中找最大值Java题解

Albert

LeetCode 7月月更

资深开发人员告诉你,怎样编写出优秀的代码?

雨果

程序员 软件 开发者 代码

架构实战营 - 第 6 期 模块九之毕业设计

乐邦

「架构实战营」

分布式系统:what、why、how

javaadu

分布式系统

Java多线程案例之单例模式(懒汉,饿汉,枚举)

未见花闻

7月月更

牛客java选择题每日打卡Day5

京与旧铺

7月月更

程序员远程办公喜忧参半| 社区征文

乌龟哥哥

7月月更

JDBC 进阶

武师叔

7月月更

NFT新的契机,多媒体NFT聚合平台OKALEIDO即将上线

股市老人

简述服务量化分析体系

阿泽🧸

7月月更 量化分析

毕业设计项目

michael

架构实战营 #架构实战营 「架构实战营」

一入“远程”终不悔,几人欢喜几人愁。| 社区征文

法医

初夏征文

疫情远程办公经验分享| 社区征文

乌龟哥哥

7月月更

架构训练毕业设计+总结

小马

#架构训练营

浅谈一篇优质的小红书文案需要具备什么

石头IT视角

线程常用的方法

zarmnosaj

7月月更

远程办公工具分享|社区征文

如浴春风

初夏征文

【愚公系列】2022年7月 Go教学课程 002-Go语言环境安装

愚公搬代码

7月月更

设计电商秒杀系统

Jadedev

「架构实战营」

如何有效远程办公之我见 | 社区征文

踏雪痕

远程办公 居家办公 初夏征文

腾讯云详解宕机故障:光纤挖断后的150秒_服务革新_田晓旭_InfoQ精选文章