9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

2018 年十大云宕机事故盘点:主流无一幸免!

  • 2018-12-27
  • 本文字数:2755 字

    阅读完需:约 9 分钟

2018年十大云宕机事故盘点:主流无一幸免!

根据 IDC 今年 7 月份发布的《中国公有云服务市场半年度跟踪报告》显示,阿里云的市场占有率已过 45%,腾讯云达到 10%。在全球市场,根据 Gartner 最新数据显示,亚马逊 AWS 占全球份额的 51.8%;微软 Azure 位列第二位,占比 13.3%;阿里云位列第三位,占比 4.6%;谷歌 Cloud 云服务占比 3.3%;随后是 IBM,占比 1.9%。可见,这几大主流云供应商占据全球绝大部分市场,一旦云服务出现宕机,受影响的企业将不计其数。


2018 年,云计算市场不仅发展迅速,而且问题不断。云供应商与开源社区的矛盾不断升级,主流云厂商均未逃过宕机事件,更有甚者一年出现多次服务宕机,导致企业对公有云的信心持续走低。本文总结了 2018 年前十大云宕机事故,欢迎各位补充经历过的云服务至暗时刻。


1、谷歌云自动化失效导致宕机  1 月 18 日


事故详情:2018 年 1 月 18 日,谷歌云自动化机制失效,导致其 us-central1 和 europe-west3 两大可用区中的计算引擎停运 93 分钟。谷歌对此的回应是“网络编程失效”导致 Autoscaler(自动扩展器)服务无法正常运行,该服务失效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联系。


补救措施:工程团队手动切换到替换任务,以恢复数据持久层正常运行。


宕机时间:93 分钟


事件后续:谷歌承诺,未来如果配置数据过时,谷歌将停止虚拟机迁移,数据持久层会在长时间运行进程期间重新解析对等体(peer),以便故障发生时迅速切换到替换任务。


2、AWS 宕机致部分 Alexa 失声  3 月 2 日


事故详情:2018 年 3 月 2 日凌晨,依赖 AWS 服务的部分 Alexa 开始出现失声问题,该智能音箱的红色指示灯不停闪烁表明服务出现中断,Alexa 也一直发出系统内置道歉声。随后几小时内,Alexa 又接到了成千上万封投诉。据了解,Alexa 这一故障源于亚马逊 AWS 的网络服务出现问题,其他依赖 AWS 作为骨干网的应用在当天也受到了影响,包括软件开发公司 Atlassian,云通讯公司 Twilio 等。


补救措施:亚马逊 AWS 的在线支持团队对此进行了修复


宕机时间:数小时(因事发凌晨,未在第一时间发酵)


事件后续:亚马逊 AWS 未对此故障进行详细说明,只透露与网络连接有关。


3、AWS 北弗吉尼亚地区数据中心出现硬件问题  5 月 31 日


事故详情:2018 年 5 月 31 日,因北弗吉尼亚地区的数据中心出现硬件故障,AWS 再次出现连接问题。在此事故中,AWS 的核心 EC2 服务,Workspaces 虚拟桌面服务以及 Redshift 数据仓库服务均受到影响。


补救措施:人为修复


宕机时长:30 分钟左右


事件后续:亚马逊公司 S3 的副总裁兼总经理 Mai-Lan Tomsen Bukovec 近日接受采访表示,亚马逊从未见过数据中心崩溃。这意味着,过去的每一次事故都未曾导致整个数据中心的崩溃,AWS 也在系统设计层面进行了改进以防止此类事故发生。


4、微软 Azure 爱尔兰数据中心宕机  6 月 17 日


事故详情:2018 年 6 月 17 日至 18 日,因爱尔兰数据中心的恒温系统出现问题,微软 Azure 被高温影响导致存储和网络中断。


宕机时间:5 小时以上


5、阿里云故障  6 月 27 日


事故详情:2018 年 6 月 27 日 16:21 左右,阿里云出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。


补救措施:人工介入,定位并解决问题


宕机时间:30 分钟,恢复时间花费一小时左右


事件后续:本次事故被定义为 S1 级别,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”


6、腾讯云云硬盘故障  7 月 20 日


事故详情:2018 年 8 月 5 日,北京清博数控科技有限公司(以下简称“前沿数控”)在官方微博发布了一篇题为《腾讯云给一家创业公司带来的灾难》的博文,文中表明,2018 年 7 月 20 日,腾讯云云硬盘发生故障(腾讯云后期给出的事故原因说明),导致该公司存放的数据全部丢失,并且不能恢复,这是该创业公司近千万元级的平台数据,包括经过长期推广导流积累起来的精准注册用户以及内容数据。


补救措施:腾讯云表示,监控到异常后第一时间向用户告知了故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据。但经过多方努力,最终仍有部分数据完整性校验失败。


事件后续:腾讯云提出“赔偿+补偿”方案,并承诺会继续与“前沿数控”保持沟通,帮助其进行业务恢复。


7、腾讯云宕机  7 月 24 日


事故详情:2018 年 7 月 24 日,用户登录腾讯云时反复出现超时、退出等情况,即便更换运营商,结果也一样。随后,腾讯云发布通知称初步确定是运营商光缆中断,运营商已经找到断点,正在连线中,主要受影响的为广州区域部分用户。


补救措施:运营商第一时间介入抢修


宕机时间:宕机时间不明,恢复时间花费 30 至 40 分钟


8、亚马逊 AWS 故障 Prime Day


事故详情:Prime Day 是亚马逊在全球范围内启动的为期 36 小时的会员促销活动,活动刚开始,亚马逊网站及 App 就同时发生严重宕机,不光电子商务业务受损,亚马逊的其他产品和服务都受到了不同程度的影响。亚马逊对此给出的解释是 AWS 管理控制台出现全球性问题。


宕机时间:故障持续了将近 6 小时


事件后续:AWS 发言人表示,间歇性的 AWS 管理控制台问题并未对亚马逊的消费者业务产生任何有意义的影响。


9、微软云 Azure 数据中心遭雷劈宕机  9 月 4 日


事故详情:9 月 4 日上午,微软 Azure 美国中南区数据中心附近发生雷击在内的恶劣天气,影响冷却系统的电压,导致多个 Azure 服务出现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括 Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。


补救措施:9 月 5 日上午,微软工程师已恢复数据中心的电力和大多数网络设备,其他服务也在陆续恢复中。


宕机时间:超过 24 小时


10、谷歌公有云下的 Kubernetes 服务(GKE)宕机  11 月 9 日


事故详情:11 月 9 日,谷歌公有云上提供的 Kubernetes 服务(GKE)节点池建置功能出现异常,维运人员无法透过 Cloud Console UI 建立新节点。


补救措施:谷歌派工程团队调查故障原因,并开始着手维修。谷歌表示,受影响的企业用户可以先改为使用 GCP 内建的 gcloud command,建置新 Kubernetes 节点。


宕机时间:接近 19 小时


在过去几年,云供应商还发生过数起大大小小的故障,随着越来越多的企业和政府机构将数据上云,即便只是一个小小的宕机都可能引发很大的灾难。即便是提供 99.9%可靠性的阿里云,那 0.1%的宕机还是发生了,因此企业不仅要建立完善的灾备保障体系,还应该对灾备系统进行定期演练以防故障发生造成损失。


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2018-12-27 08:157643
用户头像
赵钰莹 InfoQ 主编

发布了 846 篇内容, 共 559.2 次阅读, 收获喜欢 2640 次。

关注

评论 2 条评论

发布
用户头像
该用的还是用
2018-12-27 09:28
回复
用户头像
这些公有云 供应商可信度大打折扣
2018-12-27 08:37
回复
没有更多了
发现更多内容

怎么设计产品手册?用什么设计产品手册?

Baklib

万物互联,车联网数字化需要快速引入小程序生态

Speedoooo

小程序 车联网 IoT 小程序生态

符合信创要求的堡垒机有哪些?支持哪些系统?

行云管家

信创 堡垒机 信创产业

“低代码”编程或将是软件开发的未来

优秀

低代码

安克创新每一个“五星好评”背后,有怎样的流程管理?

科技热闻

Colocate Join :ClickHouse的一种高性能分布式join查询模型

华为云开发者联盟

数据库 后端

2022年中国软饮料市场洞察

易观分析

软饮料 市场分析

等保2.0一个中心三重防护指的是什么?如何理解?

行云管家

等保 等级保护 等保2.0 安全等级保护

用好 DIV 和 API,在前端系统中轻松嵌入数据分析模块

葡萄城技术团队

前端 嵌入式 BI 可视化数据

MySQL 原理与优化:Update 优化

老崔说架构

NFT数字藏品——数字藏品发行平台开发

开源直播系统源码

软件开发 数字藏品 数字藏品系统软件开发

社区动态——恭喜海豚调度中国区用户组新晋 9 枚“社群管理员”

Apache DolphinScheduler

1W字详解线程本地存储 ThreadLocal

了不起的程序猿

Java JAVA开发 java程序员 java编程

mysql进阶(三十三)MySQL数据表添加字段

No Silver Bullet

MySQL 8月月更 添加字段

易观分析联合中小银行联盟发布海南数字经济指数,敬请期待!

易观分析

金融 海南数字经济 易观分析

兆骑科创高层次人才创业大赛平台,投融资对接,双创服务

兆骑科创凤阁

一文带你了解 HONOR Connect

荣耀开发者服务平台

开发者 教程 荣耀 honor

8月Meetup | “数据调度+分析引擎”解锁企业数字化转型之路

Apache DolphinScheduler

【荣耀智慧服务】快捷服务开发指南

荣耀开发者服务平台

开发者 App 手机 荣耀 honor

借数据智能,亚马逊云科技助力企业打造品牌内生增长力

Lily

兆骑科创创业赛事活动发布平台,创业赛事,项目路演

兆骑科创凤阁

fastposter v2.9.1 程序员必备海报生成器

物有本末

海报生成器 海报编辑器 图片生成 二维码生成

产品说明丨如何使用MobPush快速创建应用

MobTech袤博科技

ios android sdk mobpush 智能推送

异形屏为led显示行业带来更多希望

Dylan

LED显示屏 led显示屏厂家 异形屏

leetcode 739. Daily Temperatures 每日温度(中等)

okokabcd

LeetCode 数据结构与算法 栈和队列

容器化 | 在 S3 实现定时备份

RadonDB

MySQL 数据库 Kubernetes

头脑风暴:目标和

HelloWorld杰少

数据结构 算法 LeetCode 8月月更

避免 10 大 NGINX 配置错误(上)

NGINX开源社区

nginx 架构 配置 配置分析 故障排除

缺少比较器,运放来救场!(运放当做比较器电路记录)

矜辰所致

电路设计 8月月更 比较器 运放

易观千帆银行用户体验中心:聚焦银行APP用户体验

易观分析

金融 银行 用户体验

智为链接,慧享生活,荣耀智慧服务,只为 “懂” 你

荣耀开发者服务平台

开发者 安卓 荣耀 honor

  • 扫码添加小助手
    领取最新资料包
2018年十大云宕机事故盘点:主流无一幸免!_服务革新_赵钰莹_InfoQ精选文章