HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

AWS 发生故障:多处光缆被挖断,历经 11 小时完全修复

  • 2019-06-02
  • 本文字数:1766 字

    阅读完需:约 6 分钟

AWS发生故障:多处光缆被挖断,历经11小时完全修复

北京时间今日凌晨,AWS 多个可用区发生故障,官方发表声明称因多处光缆被挖断。截至今天下午 13:48,AWS 表示所有故障已经完全恢复。


北京时间今日凌晨 2:00,AWS 多个可用区发生故障,相关用户无法连接 Internet。随后,AWS 发表声明表示:“由于 CN-NORTH-1 区域有多处光纤在昨晚的道路施工中被挖断,导致该区域的第一个可用区中 EC2 实例不能访问,同时不能在整个 CN-NORTH-1 区域中新建 EC2 实例。维修团队已找到具体断点,正在尽力恢复。”



据网友爆料,受事故波及影响,三星服务器全线崩溃。用户登录三星部分服务器时,页面报错且无法显示正常状态。打开 Bixy 的时候只会显示 LOGO 然后就闪退,根本无法进入 Bixby,三星商店则一直处于网络错误状态。此外,国内也有多家公司的服务受到影响,VIPKID 通过官方微博表示:“目前已经启动替代方案,受影响区域的线上课程正在陆续恢复,受此影响未能正常完成的课程不会消耗您的课时。”


企业如何自救?

每逢云服务出现宕机,多云这个话题都会被提起,不少用户认为多云可以有效规避单一云服务故障引发的不可用问题。在知乎上,也有不少与多云相关的探讨:



对此,业内专家在接受 InfoQ 采访时表示,作为云服务的采用者,企业首先需要仔细考虑清楚自己的战略,同时了解这些挑战最终可能带来的复杂性、成本和陷阱。在多云部署中,成本可能会成倍增加,这不仅仅是云订单的价格,还有运维成本。虽然一开始通过利用多个云计算提供商来实现成本效率似乎是合理的,但长远来看,缺乏工具和标准以及其他低效率培训和跟踪云平台使用的成本可能代价高昂。


目前,多云支持能力的供应商成熟度差异非常大。虽然一些供应商是早期采用者和开拓者,但彼此之间存在全方位差异,而这种差异使得采用过程非常复杂和低效。此外,从安全性和合规性角度来看,缺乏集成身份和访问管理也是一项重要挑战。


对于云服务故障,企业需要明白,无论是传统环境还是云环境,都不能做到绝对的“持续可用”。大部分情况下,云环境的可用性和可靠性都比传统环境要高,这主要是因为云平台的运维更加专业。既然任何环境都有出现故障的可能,那么需要重视的问题就是“发生故障时,应该怎么办”。


接受风险,这一点很重要。对于现阶段国内的云计算发展进程来看,上云是不可避免的,在这种情况下,企业应该保持正确的心理,毕竟只要是系统,都会发生故障。国内主流云计算厂商已经投入了大量精力和成本在可用性和可靠性层面,这肯定要优于不少技术能力不足、成本有限的企业自建服务器。如果出现这种情况,那么走应急预案,用非系统的方式尽量降低风险。例如,某个服务宕机了,及时在官网做出声明。


其次,分散风险。云环境的同城双活、异地灾备等方案基本就绪,尽量在经济和人员条件可行的情况下使用这些分散风险的方法。如果故障只出在一个服务器集群,采用异地灾备方案可以在最快时间切换到另一个集群,从而保持系统可用。虽然还是会有中断,但是可以最快时间恢复。


按照此模式,云下系统做云上灾备也是防范传统环境出现可用性问题的一种重要手段。作为企业的 IT 人员,日常做到以下四点可以尽可能避免云故障带来的损失。


1、备份、备份,还是备份,要异机异地;


2、数据容灾;


3、业务双活;


4、定期对灾备和双活进行演练。

AWS 历史故障

在过去十年,AWS 也曾发生过几次因不可抗力造成的服务故障。根据不完全统计,2010 年 5 月 11 日,AWS 曾因停电事故出现故障,致使美国东部的少量用户失去服务近一个小时,其事故原因是一辆汽车撞倒了 AWS 数据中心附近的高压电线杆,数据中心的配电开关未能成功切换至内部备用发电机。


2011 年 8 月,亚马逊在北弗吉尼亚州的 EC2 服务发生断网故障,使许多使用亚马逊 Web 服务云计算基础设施的网站和服务临时中断。根据当时的声明,该事故是由于北爱尔兰都柏林出现闪电引起数据中心停电。


2012 年 6 月 14 日,雷暴导致亚马逊在该地区的设施运转异常,发电机无法正常运行,应急电源被消耗,从而导致 Amazon RDS 上近千个 MySQL 数据库宕机,影响了 AWS 多项云服务以及其上的 Quora 等知名网站。


2015 年 9 月 20 日,AWS 的一个数据中心遭遇停电事故,影响了 Netflix,Tinder,Airbnb 等应用程序的在线服务。


2016 年 6 月,澳大利亚悉尼遭遇风暴,AWS 在该地区的设施停电,众多 EC2 实例及为知名公司托管关键负载的 EBS 卷接连出现故障,这次服务中断持续了近 10 个小时。


2019-06-02 17:5117439
用户头像
赵钰莹 InfoQ 主编

发布了 882 篇内容, 共 641.8 次阅读, 收获喜欢 2679 次。

关注

评论 1 条评论

发布
用户头像
AWS不同服务的恢复时间不同,可根据官网日志进行查看,全部恢复于13:48
2019-06-02 18:31
回复
没有更多了
发现更多内容

一个cpp协程库的前世今生(四)协程上下文ctx

SkyFire

c++ cocpp

LabVIEW图像分割算法(基础篇—6)

不脱发的程序猿

机器视觉 图像处理 LabVIEW 图像分割算法

2022 让我们登上更大的舞台

坚果

28天写作 12月日更 2021年终总结 盘点 2021

五天玩转EMAS Serverless训练营

移动研发平台EMAS

阿里云 #Serverless #EMAS

seata分布式事务TCC模式介绍及推荐实践

恒生LIGHT云社区

分布式 分布式事务 seata TCC

最好的 6 个免费天气 API 接口对比测评

蒋川

API 天气api

.NET6新东西--Logging Source Generator

喵叔

28天写作 12月日更

Java 数据持久化系列之 HikariCP (一)

程序员历小冰

持久化 HikariCP 28天写作 12月日更

腾讯云数据库2021年成绩单,请检阅!

腾讯云数据库

tdsql 国产数据库

Postman 使用教程 - 手把手教你 API 接口测试

蒋川

Postman 接口测试

一个cpp协程库的前世今生(三)cocpp的核心框架结构

SkyFire

c++ cocpp

『征文精选』ShardingSphere-Proxy:Base 事务基于 Seata 验证

SphereEx

数据库 架构 开源社区 ShardingSphere SphereEx

盘点 2021|一个 SAP 成都研究院开发工程师的2021年度总结:既没有厚积,也未能薄发

汪子熙

程序员 28天写作 12月日更 盘点2021 盘点 2021

CRM系统为什么被认为是企业的重要资产?

低代码小观

企业管理 资产管理 CRM 企业管理系统 CRM系统

性能提升40%!阿里云神龙大数据加速引擎获TPCx-BB世界排名第一

阿里云弹性计算

阿里云 神龙

回顾 2021,拥抱 2022~

阿策小和尚

盘点2021

一个cpp协程库的前世今生(五)协程执行环境env

SkyFire

c++ cocpp

向未来飞驰:武汉推开了AI产业化和产业AI化的三重门

脑极体

硬核化解ISV四大痛点,华为云智联生活行业加速器助力伙伴实现商业成功

华为云开发者联盟

华为云 HarmonyOS 智联生活 华为云IoTDA 云云协同

皮皮APP x 武汉市社会心理服务指导中心 联合开展社交讲座

联营汇聚

探索SaaS产业发展新机遇|鲁班会贵安首秀圆满收官

华为云开发者联盟

SaaS 华为云 应用构建

CentOS 停服,龙蜥社区已上线解决方案专区

OpenAnolis小助手

centos 国产操作系统 龙蜥社区

如何打造一个云原生背景下的可观测平台?

淡泊明志、宁静致远

建木持续集成平台v2.1.1发布

Jianmu

DevOps CI/CD 开源软件

祝大家元旦快乐,分享一些知识演讲

石云升

28天写作 12月日更

61 K8S之日志系统部署

穿过生命散发芬芳

k8s 28天写作 12月日更

关于内核堆溢出漏洞的分析

网络安全学海

黑客 网络安全 信息安全 安全漏洞 渗透测试·

大型购物平台的系统设计与架构

恒生LIGHT云社区

平台搭建 构架 平台架构

当MySQL执行XA事务时遭遇崩溃,且看华为云如何保障数据一致性

华为云开发者联盟

MySQL 华为云

数字化转型失败,有哪些原因?

禅道项目管理

数字化转型

Hoo虎符研究院 | 币海寻珠最新一期的DAO生态

区块链前沿News

DAO Hoo 虎符交易所 虎符研究院

AWS发生故障:多处光缆被挖断,历经11小时完全修复_服务革新_赵钰莹_InfoQ精选文章