写点什么

机房锂电池火灾致阿里等多家大厂服务瘫痪,超 30 小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

  • 2024-09-13
    北京
  • 本文字数:3313 字

    阅读完需:约 11 分钟

大小:1.51M时长:08:46
机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

9 月 10 日上午,阿里云因新加坡可用区 C 数据中心发生火灾,导致主要科技公司服务中断,火灾原因已确定为锂电池爆炸。据外媒报道,10 日早上约 8 点发生的机房火灾,截至 11 日下午 8 点,已持续 36 小时,仍未完全扑灭。

 

根据阿里云发布的官方声明,关键云产品受到影响,包括云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute。阿里云今日凌晨更新了相关进展,称大部分受网络影响的云产品已恢复正常运行,但仍有部分业务因机房断电需等待物理条件恢复。

 

昨晚 20:23,消防部门仍在现场处理大楼的安全风险,运维工程师正在等待进入机房的许可。如果现场评估显示不具备原地恢复的条件,应急小组将执行服务器设备的迁移恢复方案。

 

专注于数据中心的媒体 W.Media 报道称,此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司的服务造成了“严重中断”。




在 Lazada 以及 TikTok Shop 等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop 的用户也透露,系统故障使得小黄车功能无法正常使用。Lazada 和 TikTok Shop 方面已经对受影响的订单进行了延期处理。

 



在社交平台上,报告异常的也不少,部分 TikTok 用户也反馈,新加坡发布的视频无法获得正常流量。而 Twitter 上也有新加坡等地方的用户表示 Tiktok 有宕机的情况。

 



该数据中心不仅托管了阿里云服务器和字节的网络设备,还包括一些其他跨国公司的服务器。有用户报告称,Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现了宕机或服务降级,似乎与此次火灾有关。

 

有意思的是,AWS 的销售也趁此机会安利自家服务:

 


机房火灾由锂电池爆炸引发,持续超 30 小时

 

据当地媒体报道,该数据中心属于美国数据中心房地产投资信托 Digital Realty 名下。

 

火灾始于当地时间周二上午,有群众在事发前听到爆炸声,随后数据中心冒出滚滚浓烟,现场能闻到一股呛鼻的烧焦味。锂电池爆炸的威力巨大,瞬间引发了火灾,并使得火势迅速蔓延。

 

运营该处计算设施的 Digital Realty 公司发言人解释称,“2024 年 9 月 10 日上午 7:45,我们发现 SIN11 数据中心触发火灾警报。所有现场人员于 8:15 前安全撤离,事故未造成人员受伤。”

 

事故发生在数据中心一栋建筑的电池室内。新加坡民防部队(消防组织)发表公告称,火患波及数据中心三楼阁楼内的两个电池房、两个电源房和一个设备储藏室。

 


根据报道来看,此次事件灭火的手段包括四个水枪、房内洒水灭火系统、灭火机器人等。为确保火源不再复燃,消防人员也一直留守在数据中心外面,“需要通过降温和浇湿措施来控制连锁反应”。

 


但截至 11 日晚,失火的数据中心仍有两处冒着浓烟。

 

在火灾持续的 30 多个小时里,灭火工作面临着诸多挑战。一方面,锂离子电池通常用于从智能手机到电动汽车的设备中,此类火灾因难以彻底扑灭而著称。即使初期火焰被扑灭,锂离子电池的内部化学反应仍会持续生成热量并提供燃料,导致自燃复燃。另一方面,这类火灾会释放有毒气体,如氟化氢及其他有害物质,增加了对消防员的风险,也使灭火过程更为复杂。此外,数据中心通常采用封闭式设计,通风条件有限,不利于烟雾的排出,也给灭火工作带来了困难。

 

业界对于用水消防抑制锂电池火灾有所争议,有观点认为当锂电池起火时,水分可能导致电池短路,从而加剧火势。此外,水与锂电池的正负极材料和电解液发生剧烈反应,产生的气体和热量可能引发爆炸,进一步加重火灾。

 

相比之下,全氟己酮作为灭火剂表现出优异的效果,能够迅速扑灭电池外部的明火。它安全性较高,且对环境友好,喷发后能快速汽化,吸收大量热量,隔绝空气中的氧气,从而实现窒息灭火。

 

9 月 11 日(昨天)晚 8 点,当地媒体报道称,消防员仍在现场进行浇湿工作。

 

而大楼建筑结构也受到些许损坏,作为预防措施,建设局将对建筑的三楼、三楼阁楼和四楼的一些区域发出危楼令(Dangerous Building Order)和封闭令(Closure Order)。

 

机房被水淹没,阿里云业务受严重影响

 

受到这起火灾影响的企业则被告知须启动灾难事态下的业务连续性计划。

 


阿里云的状态报告称,该公司于周二 10:20(新加坡标准时间)检测到新加坡区域 C 可用区发生异常,“导致部分云服务无法正常运行”。

 

后续发布的更新指出,“此次异常是由新加坡数据中心的锂电池爆炸引发,爆炸导致现场起火及温度升高。”

 

作为中国云服务领域的头部厂商之一,阿里云声称其灾难恢复与故障转移程序已按预期运行,意味着高可用性云产品达到了承诺的服务水平,但表示部分用户仍须手动将工作负载从受火灾影响的可用区迁出。

 

目前阿里云方面正在等待数据中心恢复正常,至少部分其他服务和产品则被迫下线。

 

截至本周二晚 20:04,这家云服务公司报告称“火灾警报尚未完全消除”,工作人员无法进入着火的建筑,数据中心内一些网络设备“在高温环境下已出现异常”,影响到部分云产品的网络连接。

 

客户收到警告信息,称“新加坡 C 可用区遭遇网络完全中断的可能性正在增加”,通知建议“如果您的业务部署在新加坡 C 可用区,我们将尽快协助您进行业务迁移。”

 

到周三凌晨 1:46 时,情况开始进一步恶化。

 

阿里巴巴方面表示,“机房开始出现积水和泄漏,电路存在短路风险”,因此需要对新加坡 C 可用区的一栋建设进行紧急断电。其他建筑的网络服务则已逐步恢复。

 

Digital Realty 向媒体证实,截至周三凌晨 1:45,部分电气系统已经顺利关闭。

 


数据中心火灾频发

 

数据中心是数据存储和处理的关键基础设施,其安全性至关重要。近年来,全球范围内发生的数据中心火灾已造成巨大的经济损失。回顾近年数据中心火灾事故,显示出这一问题的严重性和紧迫性。

 

2022 年 8 月,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成 3 人受伤。该数据中心是谷歌最大的数据中心之一,其于 2009 年首次启用。事故发生后,据宕机追踪网站 Downdetector.com 数据显示,美国有超过 4 万人报告无法使用谷歌搜索。

 

因电池起火造成的意外事故也并不鲜见。2022 年 10 月,韩国 SK 公司 C&C 板桥数据中心发生火灾,大火在大约 8 小时后被扑灭。经调查发现,安装在地下三层电气设备室的 5 个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

 

本次火灾导致了约 3.2 万个服务器瘫痪,数千万用户服务受到影响。数据中心失火后,包括 Kakao Talk 在内的 Kakao 系列服务中断了一天左右才逐步恢复。火灾之后,韩国科技部长官李宗昊就数据中心失火导致网络平台瘫痪一事致歉,几天之后,Kakao 联席 CEO 也因此引咎辞职。

 

法国云巨头 OVH 也曾因 UPS(不间断电源)起火导致一处数据中心下线。2021 年 3 月,这家法国运营商的 SBG2 数据中心发生了波及整栋大楼的起火事故,导致该区域的 4 个数据中心,一个被完全烧毁,另有一个部分受损。

 


起火后,瘫痪的法国政府、企业与公共事业网站达到约 360 万个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25 台欧洲服务器完全损毁,没有备份,数据无法被修复。事后,超过 130 名客户加入了集体诉讼,指责 OVHcloud 未尽充分义务,且没有为受损失的企业提供足够的赔偿。该公司迟迟不披露起火原因,并坚称必须等待官方报告。

 

在火灾发生一年后,Bas-Rhin 消防局发布了一份调查报告,强烈批评这家法国运营商的设施。由事故调查报告可知,这座数据中心存在相当多的消防隐患,包括:采用了标称耐火仅一小时的木质天花板、未配备自动灭火装置、也没有通用电气切断开关。不过更让消防人员遗憾的是,这处设施还有一种自然冷却设计,这也创造了可增加火势的“烟囱效应”。

 

参考链接:

https://www.zaobao.com.sg/realtime/singapore/story20240911-4696962

https://www.channelnewsasia.com/singapore/fire-loyang-digital-realty-data-centre-scdf-operation-4599316

https://www.theregister.com/2024/09/10/digtal_realty_singapore_datacenter_fire/

https://www.dny123.com/t/fqwoBz3I

https://www.channelnewsasia.com/singapore/loyang-data-centre-fire-digital-realty-damping-down-operations-4601471

https://www.sohu.com/a/594134841_210640

https://m.chinanews.com/wap/detail/chs/zw/9875402.shtml

https://www.infoq.cn/article/uuf06fYgW2vi3yd3pwzR

2024-09-13 14:2512863

评论 1 条评论

发布
用户头像
UPS电池
2024-09-21 23:18 · 广东
回复
没有更多了
发现更多内容

uni-app深入学习之模板运用【day4】

恒山其若陋兮

6月月更

读《Software Systems Architecture》(18)—— The Information Viewpoint

术子米德

架构师成长笔记

在线文本保留中文提取过滤工具

入门小站

工具

读《Software Systems Architecture》(15)—— Introduction to the Viewpoint Catalog

术子米德

架构师成长笔记

数仓开发人员的价值体现

奔向架构师

数据仓库 数据模型 6月月更

js中的变量提升和函数提升

北洋

android 6月月更

凿开数据冰层,透出智能时代的光:华为云与开发者的结伴旅行

脑极体

盘点攻防演练中红队的主要工具(下)

穿过生命散发芬芳

6月月更 攻防演练

计算机网络之IP协议与以太网

未见花闻

6月月更

数据库每日一题---第13天:寻找病患

知心宝贝

数据库 云计算 前端 后端 6月月更

读《Software Systems Architecture》(13)—— Creating the Architectural Description

术子米德

架构师成长笔记

读《Software Systems Architecture》(14)—— Evaluating the Architecture

术子米德

架构师成长笔记

读《Software Systems Architecture》(19)—— The Concurrency Viewpoint

术子米德

架构师成长笔记

读《Software Systems Architecture》(20)—— The Development Viewpoint

术子米德

架构师成长笔记

python简介

左手の明天

Python Python解释器

如何修改 Rancher v2.6 的 Rancher Server IP 地址

Rancher

Kubernetes k8s rancher

从链上数据出发,分析stETH脱锚之后的市场动态

区块链前沿News

eth Hoo

GoLang简单易用的json value读取工具!还并发安全

Krysta

Go json 简单清楚 方便

linux之我常用的20条命令(之二)

入门小站

Linux

读《Software Systems Architecture》(11)—— Using Styles and Patterns

术子米德

架构师成长笔记

读《Software Systems Architecture》(16)—— The Context Viewpoint

术子米德

架构师成长笔记

全球Top 2!腾讯计算机视觉能力再突破

脑极体

文档管理系统对于企业有哪些优势

小炮

三点微服务标准化要素

阿泽🧸

微服务 6月月更

GetX 状态管理从入门到入迷

岛上码农

flutter ios 前端 安卓 6月月更

读《Software Systems Architecture》(12)—— Producing Architectural Models

术子米德

架构师成长笔记

接口测试使用Python装饰器

伤心的辣条

Python 程序人生 软件测试 自动化测试 接口测试

读《Software Systems Architecture》(17)—— The Functional Viewpoint

术子米德

架构师成长笔记

机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?_云原生_Tina_InfoQ精选文章