HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

机房锂电池火灾致阿里等多家大厂服务瘫痪,超 30 小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

  • 2024-09-13
    北京
  • 本文字数:3313 字

    阅读完需:约 11 分钟

大小:1.51M时长:08:46
机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

9 月 10 日上午,阿里云因新加坡可用区 C 数据中心发生火灾,导致主要科技公司服务中断,火灾原因已确定为锂电池爆炸。据外媒报道,10 日早上约 8 点发生的机房火灾,截至 11 日下午 8 点,已持续 36 小时,仍未完全扑灭。

 

根据阿里云发布的官方声明,关键云产品受到影响,包括云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute。阿里云今日凌晨更新了相关进展,称大部分受网络影响的云产品已恢复正常运行,但仍有部分业务因机房断电需等待物理条件恢复。

 

昨晚 20:23,消防部门仍在现场处理大楼的安全风险,运维工程师正在等待进入机房的许可。如果现场评估显示不具备原地恢复的条件,应急小组将执行服务器设备的迁移恢复方案。

 

专注于数据中心的媒体 W.Media 报道称,此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司的服务造成了“严重中断”。




在 Lazada 以及 TikTok Shop 等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop 的用户也透露,系统故障使得小黄车功能无法正常使用。Lazada 和 TikTok Shop 方面已经对受影响的订单进行了延期处理。

 



在社交平台上,报告异常的也不少,部分 TikTok 用户也反馈,新加坡发布的视频无法获得正常流量。而 Twitter 上也有新加坡等地方的用户表示 Tiktok 有宕机的情况。

 



该数据中心不仅托管了阿里云服务器和字节的网络设备,还包括一些其他跨国公司的服务器。有用户报告称,Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现了宕机或服务降级,似乎与此次火灾有关。

 

有意思的是,AWS 的销售也趁此机会安利自家服务:

 


机房火灾由锂电池爆炸引发,持续超 30 小时

 

据当地媒体报道,该数据中心属于美国数据中心房地产投资信托 Digital Realty 名下。

 

火灾始于当地时间周二上午,有群众在事发前听到爆炸声,随后数据中心冒出滚滚浓烟,现场能闻到一股呛鼻的烧焦味。锂电池爆炸的威力巨大,瞬间引发了火灾,并使得火势迅速蔓延。

 

运营该处计算设施的 Digital Realty 公司发言人解释称,“2024 年 9 月 10 日上午 7:45,我们发现 SIN11 数据中心触发火灾警报。所有现场人员于 8:15 前安全撤离,事故未造成人员受伤。”

 

事故发生在数据中心一栋建筑的电池室内。新加坡民防部队(消防组织)发表公告称,火患波及数据中心三楼阁楼内的两个电池房、两个电源房和一个设备储藏室。

 


根据报道来看,此次事件灭火的手段包括四个水枪、房内洒水灭火系统、灭火机器人等。为确保火源不再复燃,消防人员也一直留守在数据中心外面,“需要通过降温和浇湿措施来控制连锁反应”。

 


但截至 11 日晚,失火的数据中心仍有两处冒着浓烟。

 

在火灾持续的 30 多个小时里,灭火工作面临着诸多挑战。一方面,锂离子电池通常用于从智能手机到电动汽车的设备中,此类火灾因难以彻底扑灭而著称。即使初期火焰被扑灭,锂离子电池的内部化学反应仍会持续生成热量并提供燃料,导致自燃复燃。另一方面,这类火灾会释放有毒气体,如氟化氢及其他有害物质,增加了对消防员的风险,也使灭火过程更为复杂。此外,数据中心通常采用封闭式设计,通风条件有限,不利于烟雾的排出,也给灭火工作带来了困难。

 

业界对于用水消防抑制锂电池火灾有所争议,有观点认为当锂电池起火时,水分可能导致电池短路,从而加剧火势。此外,水与锂电池的正负极材料和电解液发生剧烈反应,产生的气体和热量可能引发爆炸,进一步加重火灾。

 

相比之下,全氟己酮作为灭火剂表现出优异的效果,能够迅速扑灭电池外部的明火。它安全性较高,且对环境友好,喷发后能快速汽化,吸收大量热量,隔绝空气中的氧气,从而实现窒息灭火。

 

9 月 11 日(昨天)晚 8 点,当地媒体报道称,消防员仍在现场进行浇湿工作。

 

而大楼建筑结构也受到些许损坏,作为预防措施,建设局将对建筑的三楼、三楼阁楼和四楼的一些区域发出危楼令(Dangerous Building Order)和封闭令(Closure Order)。

 

机房被水淹没,阿里云业务受严重影响

 

受到这起火灾影响的企业则被告知须启动灾难事态下的业务连续性计划。

 


阿里云的状态报告称,该公司于周二 10:20(新加坡标准时间)检测到新加坡区域 C 可用区发生异常,“导致部分云服务无法正常运行”。

 

后续发布的更新指出,“此次异常是由新加坡数据中心的锂电池爆炸引发,爆炸导致现场起火及温度升高。”

 

作为中国云服务领域的头部厂商之一,阿里云声称其灾难恢复与故障转移程序已按预期运行,意味着高可用性云产品达到了承诺的服务水平,但表示部分用户仍须手动将工作负载从受火灾影响的可用区迁出。

 

目前阿里云方面正在等待数据中心恢复正常,至少部分其他服务和产品则被迫下线。

 

截至本周二晚 20:04,这家云服务公司报告称“火灾警报尚未完全消除”,工作人员无法进入着火的建筑,数据中心内一些网络设备“在高温环境下已出现异常”,影响到部分云产品的网络连接。

 

客户收到警告信息,称“新加坡 C 可用区遭遇网络完全中断的可能性正在增加”,通知建议“如果您的业务部署在新加坡 C 可用区,我们将尽快协助您进行业务迁移。”

 

到周三凌晨 1:46 时,情况开始进一步恶化。

 

阿里巴巴方面表示,“机房开始出现积水和泄漏,电路存在短路风险”,因此需要对新加坡 C 可用区的一栋建设进行紧急断电。其他建筑的网络服务则已逐步恢复。

 

Digital Realty 向媒体证实,截至周三凌晨 1:45,部分电气系统已经顺利关闭。

 


数据中心火灾频发

 

数据中心是数据存储和处理的关键基础设施,其安全性至关重要。近年来,全球范围内发生的数据中心火灾已造成巨大的经济损失。回顾近年数据中心火灾事故,显示出这一问题的严重性和紧迫性。

 

2022 年 8 月,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成 3 人受伤。该数据中心是谷歌最大的数据中心之一,其于 2009 年首次启用。事故发生后,据宕机追踪网站 Downdetector.com 数据显示,美国有超过 4 万人报告无法使用谷歌搜索。

 

因电池起火造成的意外事故也并不鲜见。2022 年 10 月,韩国 SK 公司 C&C 板桥数据中心发生火灾,大火在大约 8 小时后被扑灭。经调查发现,安装在地下三层电气设备室的 5 个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

 

本次火灾导致了约 3.2 万个服务器瘫痪,数千万用户服务受到影响。数据中心失火后,包括 Kakao Talk 在内的 Kakao 系列服务中断了一天左右才逐步恢复。火灾之后,韩国科技部长官李宗昊就数据中心失火导致网络平台瘫痪一事致歉,几天之后,Kakao 联席 CEO 也因此引咎辞职。

 

法国云巨头 OVH 也曾因 UPS(不间断电源)起火导致一处数据中心下线。2021 年 3 月,这家法国运营商的 SBG2 数据中心发生了波及整栋大楼的起火事故,导致该区域的 4 个数据中心,一个被完全烧毁,另有一个部分受损。

 


起火后,瘫痪的法国政府、企业与公共事业网站达到约 360 万个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25 台欧洲服务器完全损毁,没有备份,数据无法被修复。事后,超过 130 名客户加入了集体诉讼,指责 OVHcloud 未尽充分义务,且没有为受损失的企业提供足够的赔偿。该公司迟迟不披露起火原因,并坚称必须等待官方报告。

 

在火灾发生一年后,Bas-Rhin 消防局发布了一份调查报告,强烈批评这家法国运营商的设施。由事故调查报告可知,这座数据中心存在相当多的消防隐患,包括:采用了标称耐火仅一小时的木质天花板、未配备自动灭火装置、也没有通用电气切断开关。不过更让消防人员遗憾的是,这处设施还有一种自然冷却设计,这也创造了可增加火势的“烟囱效应”。

 

参考链接:

https://www.zaobao.com.sg/realtime/singapore/story20240911-4696962

https://www.channelnewsasia.com/singapore/fire-loyang-digital-realty-data-centre-scdf-operation-4599316

https://www.theregister.com/2024/09/10/digtal_realty_singapore_datacenter_fire/

https://www.dny123.com/t/fqwoBz3I

https://www.channelnewsasia.com/singapore/loyang-data-centre-fire-digital-realty-damping-down-operations-4601471

https://www.sohu.com/a/594134841_210640

https://m.chinanews.com/wap/detail/chs/zw/9875402.shtml

https://www.infoq.cn/article/uuf06fYgW2vi3yd3pwzR

2024-09-13 14:2511486

评论 1 条评论

发布
用户头像
UPS电池
2024-09-21 23:18 · 广东
回复
没有更多了

用javascript分类刷leetcode3.动态规划(图文视频讲解)

js2030code

JavaScript LeetCode

云原生时代数据库运维体系演进

vivo互联网技术

数据库 运维 故障自愈

【前端相关】服务端渲染和客户端渲染的比较

No8g攻城狮

CSS css3 前端 js 前端框架

【IntelliJ IDEA】【SVN】SVN详细的介绍和Idea中如何使用SVN

No8g攻城狮

ide svn Git Submodule git fetch IDEA DeBug

易观分析潘玉宇:信贷全流程化监管将成行业发展重点,银行间联合风控程度将逐渐加深

易观分析

银行 普惠金融

超1800万累计观看,多次占据热榜前列……“无障碍字幕直播间”带来的远不止这些!

猿始人

你可能需要的6个React开发小技巧

千锋IT教育

架构实战营 2-5 微信红包分析随堂测验

西山薄凉

「架构实战营」

react源码分析:babel如何解析jsx

flyzz177

React

教你用JavaScript实现点击支付框

小院里的霍大侠

JavaScript 小白 编程开发 实战案例 初学者

跳板攻击中如何追踪定位攻击者主机(上)

郑州埃文科技

数据安全 网络攻击 跳板攻击

开源依赖项管理指南

SEAL安全

12 月 PK 榜 依赖管理 传递依赖 开源依赖项

2022-12-12:有n个城市,城市从0到n-1进行编号。小美最初住在k号城市中 在接下来的m天里,小美每天会收到一个任务 她可以选择完成当天的任务或者放弃该任务 第i天的任务需要在ci号城市完成,

福大大架构师每日一题

算法 rust 福大大

React 之 Context 的变迁与背后实现

冴羽

JavaScript 源码分析 前端 前端框架 React

JavaScript刷LeetCode心得

js2030code

JavaScript LeetCode

JDK自带命令优化

@下一站

代码优化 12月日更 12月月更 jvm优化 java程序优化

GaussDB(DWS)运维 :遇到truncate执行慢,怎么办

华为云开发者联盟

数据库 后端 华为云 12 月 PK 榜

【其他】快出数量级的性能是怎样炼成的

No8g攻城狮

MySQL sql 数据库·

带你实现react源码的核心功能

flyzz177

React

从React源码角度看useCallback,useMemo,useContext

flyzz177

React

前端工程师leetcode算法面试必备-简单的二叉树

js2030code

JavaScript LeetCode

真希望你也明白runtime.Map和sync.Map

面向加薪学习

面试 并发 源码阅读 go语言 Map集合

ArgoDB 5.1 正式发布:多模融合、实时分析和数据安全多重升级

星环科技

KCL - 让 Kubernetes 资源清单管理更容易

Peefy

编程 Serverless Kubernetes #开源 #DevOps

从React源码来学hooks是不是更香呢

flyzz177

React

react源码分析:实现react时间分片

flyzz177

React

Flink核心组件

穿过生命散发芬芳

flink 12月月更

react源码中的生命周期和事件系统

flyzz177

React

Verilog 时延与过程结构

梦笔生花

Verilog语法 Verilog延时 Verilog过程结构

2022年11月中国汽车智能网联月度观察

易观分析

汽车 智能网联

架构实战营 2-6 钱包高可用实战随堂练习

西山薄凉

「架构实战营」

机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?_云原生_Tina_InfoQ精选文章