写点什么

腾讯云详解宕机故障:光纤挖断后的 150 秒

  • 2019-03-25
  • 本文字数:1355 字

    阅读完需:约 4 分钟

腾讯云详解宕机故障:光纤挖断后的150秒

3 月 23 日下午 4 点左右,腾讯多个产品出现大规模宕机,暖暖、QQ 飞车,王者荣耀,吃鸡等 90 多个服务受到影响。下午四点半,腾讯云发布公告称:各位用户,2019 年 03 月 23 日 16 时左右,因上海当地网络运营商光纤线路大面积故障,腾讯多个产品业务受到影响。目前运营商正在紧急抢修中,我们也正在积极做容灾处理,业务陆续恢复中。后续恢复进展会及时向各位公布。


3 月 25 日,腾讯云官方微信号发布《光纤挖断后的150秒》正式回应此次宕机事件,笔者摘录了部分内容:


3 月 23 日下午,上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。


“大概是从下午 3 点左右开始吧,网吧里面就有不少用户反馈,多款游戏开始出现掉线,无法登陆,甚至无法充值等情况。”来自上海的南汇区的一位网友在微信群里吐槽。这并非个别情况。随即不少群友开始接连反馈遇到类似的问题。


与互联网用户的慌乱鲜明形成对比的是,不少企业用户的情况却相对稳定。据腾讯云的一位用户反馈,故障发生后,他们运维人员立即启动监测,但是未发生业务掉线。


下午 4 点 52 分,腾讯云率先对外公告称,腾讯云平台在 2019 年 03 月 23 日监控到上海电信用户访问腾讯云外网有抖动,目前已经逐渐恢复。


在云服务越来越普及的今天,如何在面对网络故障的情况下,尽可能保证服务的稳定性和连续性,是所有企业都需要重视的问题。

启动智能化流量调度系统

当天下午,腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降。腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部 T 级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。


从架构上看,腾讯云公网流量智能调度系统,一方面通过接口自动执行并反馈管理台下发的各种调度和控制信息;另一方面和公网出口设备建立 BGP(公网路由协议)连接,通过采集设备路由信息,根据调度需求向不同路由设备下发流量调度命令,从而实现领先的公网自动化流量工程技术。


此次光纤故障,腾讯云从发现到恢复故障,全程花费了 2 分钟(抖动时间:14:40:15-14:42:45),并且所有流程自动化执行,在 150 秒之内恢复网络。

“四纤三路由”高冗余架构

能否做到上述效果与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。


首先,腾讯云在基础设施的高可用方案为网络的平稳运营提供了重要前提和支撑。腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供可靠的风火水电物理全隔离,同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证用户的网络高可用性和稳定性。


另外,从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计。什么意思呢?通俗一点来说就是腾讯云每个可用区与可用区之间都采用 3 条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在 50 毫秒级自动切换。



腾讯云四纤三路由高度冗余架构


除此之外,腾讯云波分系统中部署有光时域反射仪,在产生光缆中断时,系统可以主动探测光缆具体中断情况,第一时间精准定位光缆中断的具体位置,并及时反馈给运营商,为此次光缆的顺利修复提供非常准确的信息。


2019-03-25 11:505623
用户头像

发布了 497 篇内容, 共 332.8 次阅读, 收获喜欢 1925 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

利用Python实现数据可视化

技术冰糖葫芦

API Explorer API boy api 货币化

DCDN连接云和用户:加速企业全球拓展之旅

MasterInTech

阿里云 CDN

碳视野 | 今后五年国家重点支持三类双碳项目!

AMT企源

数字化转型 双碳 碳管理

TiDB启动:职业生涯新阶段

TiDB 社区干货传送门

社区活动 学习&认证&课程

实用技巧:排查数据异常/数据波动问题,该如何下手?

feng

大数据 分布式 后端

哔哩哔哩游戏宣布《碧蓝航线》将启动鸿蒙原生应用开发

最新动态

“大模型驱动的软件研发” 华为云助推企业研发智能化升级

华为云开发者联盟

人工智能 华为云 大模型 华为云开发者联盟 企业号2024年4月PK榜

BOE(京东方)2024年一季度净利润预计8亿元-10亿元,三位数增长叩响高质量发展“开门红”

科技热闻

前端代码规范 - 图片相关

南城FE

前端 代码规范 图片优化

TIUP离线镜像管理

TiDB 社区干货传送门

安装 & 部署

华大北斗芯片再登纽伦堡国际嵌入式展EW2024

江湖老铁

HTML API 设计指南:打造高效、可维护的接口

Apifox

JavaScript html 程序员 前端 HTML API

NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解

汀丶人工智能

自然语言处理 大语言模型 NL2SQL

基于香橙派AIpro将开源框架模型转换为昇腾模型

华为云开发者联盟

华为云 昇腾 华为云开发者联盟 企业号2024年4月PK榜 香橙派AIpro

TiProxy 问题解答 & 未来规划

TiDB 社区干货传送门

新版本/特性发布 新版本/特性解读 数据库连接 8.x 实践

TiDB 8.0 新特性尝鲜

TiDB 社区干货传送门

版本测评 新版本/特性解读 8.x 实践

从偶然邂逅到深度热爱

TiDB 社区干货传送门

社区活动 学习&认证&课程

社区声音:恭喜 TiProxy 组件 GA!

TiDB 社区干货传送门

版本测评 8.x 实践

解锁阿里巴巴1688数据宝藏:API助力批量获取商品价格、标题、图片及库存

技术冰糖葫芦

API boy api 货币化 pinduoduo API

火山引擎 VeDI:剪映产品如何应用A/B测试验证新功能效果

字节跳动数据平台

大数据 A/B测试 企业号 4 月 PK 榜 对比试验 数字化增长

下班时刻的私人专访|PingCAP 九周年纪念日这一天,我问了表妹九个问题

TiDB 社区干货传送门

人物访谈

写给职场新人|从迷茫到屡获殊荣的技术人成长之路

京东零售技术

人工智能 架构 后端 技术成长 企业号 4 月 PK 榜

新质生产力与智能制造:推动制造业转型升级的双引擎

天津汇柏科技有限公司

智能制造 新质生产力

tidb 6.1.4 table cache 导致的集群QPS异常问题

TiDB 社区干货传送门

集群管理 管理与运维 故障排查/诊断 6.x 实践

百度官方!打造「大模型全开发周期系列课程」,AI应用开发入门课率先发布!(内含英雄帖)

飞桨PaddlePaddle

百度 开发者 BAIDU 百度飞桨 飞桨星河社区

即时通讯技术文集(第36期):《跟着源码学IM》系列专题 [共12篇]

JackJiang

即时通讯;IM;网络编程

TiDB 监控告警高可用

TiDB 社区干货传送门

LigaAI x 极狐GitLab,共探 AI 时代研发提效新范式

LigaAI

人工智能 DevOps 极狐GitLab LigaAI 研发效能管理

TIKV分布式事务简介

TiDB 社区干货传送门

TiKV 底层架构 学习&认证&课程

腾讯云详解宕机故障:光纤挖断后的150秒_服务革新_田晓旭_InfoQ精选文章