写点什么

机房锂电池火灾致阿里等多家大厂服务瘫痪,超 30 小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

  • 2024-09-13
    北京
  • 本文字数:3313 字

    阅读完需:约 11 分钟

大小:1.51M时长:08:46
机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

9 月 10 日上午,阿里云因新加坡可用区 C 数据中心发生火灾,导致主要科技公司服务中断,火灾原因已确定为锂电池爆炸。据外媒报道,10 日早上约 8 点发生的机房火灾,截至 11 日下午 8 点,已持续 36 小时,仍未完全扑灭。

 

根据阿里云发布的官方声明,关键云产品受到影响,包括云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute。阿里云今日凌晨更新了相关进展,称大部分受网络影响的云产品已恢复正常运行,但仍有部分业务因机房断电需等待物理条件恢复。

 

昨晚 20:23,消防部门仍在现场处理大楼的安全风险,运维工程师正在等待进入机房的许可。如果现场评估显示不具备原地恢复的条件,应急小组将执行服务器设备的迁移恢复方案。

 

专注于数据中心的媒体 W.Media 报道称,此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司的服务造成了“严重中断”。




在 Lazada 以及 TikTok Shop 等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop 的用户也透露,系统故障使得小黄车功能无法正常使用。Lazada 和 TikTok Shop 方面已经对受影响的订单进行了延期处理。

 



在社交平台上,报告异常的也不少,部分 TikTok 用户也反馈,新加坡发布的视频无法获得正常流量。而 Twitter 上也有新加坡等地方的用户表示 Tiktok 有宕机的情况。

 



该数据中心不仅托管了阿里云服务器和字节的网络设备,还包括一些其他跨国公司的服务器。有用户报告称,Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现了宕机或服务降级,似乎与此次火灾有关。

 

有意思的是,AWS 的销售也趁此机会安利自家服务:

 


机房火灾由锂电池爆炸引发,持续超 30 小时

 

据当地媒体报道,该数据中心属于美国数据中心房地产投资信托 Digital Realty 名下。

 

火灾始于当地时间周二上午,有群众在事发前听到爆炸声,随后数据中心冒出滚滚浓烟,现场能闻到一股呛鼻的烧焦味。锂电池爆炸的威力巨大,瞬间引发了火灾,并使得火势迅速蔓延。

 

运营该处计算设施的 Digital Realty 公司发言人解释称,“2024 年 9 月 10 日上午 7:45,我们发现 SIN11 数据中心触发火灾警报。所有现场人员于 8:15 前安全撤离,事故未造成人员受伤。”

 

事故发生在数据中心一栋建筑的电池室内。新加坡民防部队(消防组织)发表公告称,火患波及数据中心三楼阁楼内的两个电池房、两个电源房和一个设备储藏室。

 


根据报道来看,此次事件灭火的手段包括四个水枪、房内洒水灭火系统、灭火机器人等。为确保火源不再复燃,消防人员也一直留守在数据中心外面,“需要通过降温和浇湿措施来控制连锁反应”。

 


但截至 11 日晚,失火的数据中心仍有两处冒着浓烟。

 

在火灾持续的 30 多个小时里,灭火工作面临着诸多挑战。一方面,锂离子电池通常用于从智能手机到电动汽车的设备中,此类火灾因难以彻底扑灭而著称。即使初期火焰被扑灭,锂离子电池的内部化学反应仍会持续生成热量并提供燃料,导致自燃复燃。另一方面,这类火灾会释放有毒气体,如氟化氢及其他有害物质,增加了对消防员的风险,也使灭火过程更为复杂。此外,数据中心通常采用封闭式设计,通风条件有限,不利于烟雾的排出,也给灭火工作带来了困难。

 

业界对于用水消防抑制锂电池火灾有所争议,有观点认为当锂电池起火时,水分可能导致电池短路,从而加剧火势。此外,水与锂电池的正负极材料和电解液发生剧烈反应,产生的气体和热量可能引发爆炸,进一步加重火灾。

 

相比之下,全氟己酮作为灭火剂表现出优异的效果,能够迅速扑灭电池外部的明火。它安全性较高,且对环境友好,喷发后能快速汽化,吸收大量热量,隔绝空气中的氧气,从而实现窒息灭火。

 

9 月 11 日(昨天)晚 8 点,当地媒体报道称,消防员仍在现场进行浇湿工作。

 

而大楼建筑结构也受到些许损坏,作为预防措施,建设局将对建筑的三楼、三楼阁楼和四楼的一些区域发出危楼令(Dangerous Building Order)和封闭令(Closure Order)。

 

机房被水淹没,阿里云业务受严重影响

 

受到这起火灾影响的企业则被告知须启动灾难事态下的业务连续性计划。

 


阿里云的状态报告称,该公司于周二 10:20(新加坡标准时间)检测到新加坡区域 C 可用区发生异常,“导致部分云服务无法正常运行”。

 

后续发布的更新指出,“此次异常是由新加坡数据中心的锂电池爆炸引发,爆炸导致现场起火及温度升高。”

 

作为中国云服务领域的头部厂商之一,阿里云声称其灾难恢复与故障转移程序已按预期运行,意味着高可用性云产品达到了承诺的服务水平,但表示部分用户仍须手动将工作负载从受火灾影响的可用区迁出。

 

目前阿里云方面正在等待数据中心恢复正常,至少部分其他服务和产品则被迫下线。

 

截至本周二晚 20:04,这家云服务公司报告称“火灾警报尚未完全消除”,工作人员无法进入着火的建筑,数据中心内一些网络设备“在高温环境下已出现异常”,影响到部分云产品的网络连接。

 

客户收到警告信息,称“新加坡 C 可用区遭遇网络完全中断的可能性正在增加”,通知建议“如果您的业务部署在新加坡 C 可用区,我们将尽快协助您进行业务迁移。”

 

到周三凌晨 1:46 时,情况开始进一步恶化。

 

阿里巴巴方面表示,“机房开始出现积水和泄漏,电路存在短路风险”,因此需要对新加坡 C 可用区的一栋建设进行紧急断电。其他建筑的网络服务则已逐步恢复。

 

Digital Realty 向媒体证实,截至周三凌晨 1:45,部分电气系统已经顺利关闭。

 


数据中心火灾频发

 

数据中心是数据存储和处理的关键基础设施,其安全性至关重要。近年来,全球范围内发生的数据中心火灾已造成巨大的经济损失。回顾近年数据中心火灾事故,显示出这一问题的严重性和紧迫性。

 

2022 年 8 月,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成 3 人受伤。该数据中心是谷歌最大的数据中心之一,其于 2009 年首次启用。事故发生后,据宕机追踪网站 Downdetector.com 数据显示,美国有超过 4 万人报告无法使用谷歌搜索。

 

因电池起火造成的意外事故也并不鲜见。2022 年 10 月,韩国 SK 公司 C&C 板桥数据中心发生火灾,大火在大约 8 小时后被扑灭。经调查发现,安装在地下三层电气设备室的 5 个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

 

本次火灾导致了约 3.2 万个服务器瘫痪,数千万用户服务受到影响。数据中心失火后,包括 Kakao Talk 在内的 Kakao 系列服务中断了一天左右才逐步恢复。火灾之后,韩国科技部长官李宗昊就数据中心失火导致网络平台瘫痪一事致歉,几天之后,Kakao 联席 CEO 也因此引咎辞职。

 

法国云巨头 OVH 也曾因 UPS(不间断电源)起火导致一处数据中心下线。2021 年 3 月,这家法国运营商的 SBG2 数据中心发生了波及整栋大楼的起火事故,导致该区域的 4 个数据中心,一个被完全烧毁,另有一个部分受损。

 


起火后,瘫痪的法国政府、企业与公共事业网站达到约 360 万个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25 台欧洲服务器完全损毁,没有备份,数据无法被修复。事后,超过 130 名客户加入了集体诉讼,指责 OVHcloud 未尽充分义务,且没有为受损失的企业提供足够的赔偿。该公司迟迟不披露起火原因,并坚称必须等待官方报告。

 

在火灾发生一年后,Bas-Rhin 消防局发布了一份调查报告,强烈批评这家法国运营商的设施。由事故调查报告可知,这座数据中心存在相当多的消防隐患,包括:采用了标称耐火仅一小时的木质天花板、未配备自动灭火装置、也没有通用电气切断开关。不过更让消防人员遗憾的是,这处设施还有一种自然冷却设计,这也创造了可增加火势的“烟囱效应”。

 

参考链接:

https://www.zaobao.com.sg/realtime/singapore/story20240911-4696962

https://www.channelnewsasia.com/singapore/fire-loyang-digital-realty-data-centre-scdf-operation-4599316

https://www.theregister.com/2024/09/10/digtal_realty_singapore_datacenter_fire/

https://www.dny123.com/t/fqwoBz3I

https://www.channelnewsasia.com/singapore/loyang-data-centre-fire-digital-realty-damping-down-operations-4601471

https://www.sohu.com/a/594134841_210640

https://m.chinanews.com/wap/detail/chs/zw/9875402.shtml

https://www.infoq.cn/article/uuf06fYgW2vi3yd3pwzR

2024-09-13 14:2512486

评论 1 条评论

发布
用户头像
UPS电池
2024-09-21 23:18 · 广东
回复
没有更多了
发现更多内容

判断一个需求优先级的方法、步骤、工具

爱吃小舅的鱼

avm 开发 APP 怎么设置字体

YonBuilder低代码开发平台

react源码分析:组件的创建和更新

flyzz177

React

直播预约|Flink + StarRocks 实时数据分析新范式

StarRocks

数据库

MatrixOne从入门到实践03——部署MatrixOne

MatrixOrigin

MatrixOrigin MatrixOne

Java对象拷贝原理剖析及最佳实践

京东科技开发者

Java Apache 编程 对象拷贝 srping

看完这篇SpringBoot让我在阿里成功涨薪40%,感谢

钟奕礼

Java java程序员 java面试 java编程

SREWorks 数智服务尝鲜,你的数据准备好了吗?

阿里云大数据AI技术

大数据 运维 数据 十一月月更

MatrixOne从入门到实践02——源码编译

MatrixOrigin

MatrixOrigin MatrixOne

第一届云原生边缘计算学术研讨会KEAW'22成功举办

科技热闻

使用keytool生成Tomcat证书

源字节1号

创云融达基于 Curve 块存储的智慧税务场景实践

网易数帆

开源 分布式存储 Ceph curve

先聊聊「堆栈」,再聊聊「逃逸分析」。Let’s Go!

王中阳Go

Go golang 逃逸分析 内存分配 11月月更

HarmonyOS 3重磅版本更新,Mate Xs 2等更多设备支持超级中转站!

Geek_2d6073

MatrixOne从入门到实践01——初识MatrixOne

MatrixOrigin

MatrixOrigin MatrixOne

工程团队如何合理地管理数据库访问

Bytebase

DevOps 运维 dba 数据库管理工具 删库保护

如何给 Fiori Elements 应用添加自定义按钮

汪子熙

前端开发 web开发 Fiori SAP UI5 11月月更

前后端结合解决Excel海量公式计算的性能问题

葡萄城技术团队

前端 性能 Excel

一个漏测Bug能让你想到多少?

得物技术

测试 测试框架 bug修复 漏洞检测 测试技术

上海 Meetup | 一键获取 11 大云原生热门开源项目技术分享入场券

阿里巴巴云原生

阿里云 开源 容器 微服务 云原生

深入浅出DDD编程

百度Geek说

架构 后端 领域驱动设计

如何用科学的方法“撞大运”? | 学点运气

赵新龙

CTO 创新 与运气竞争

算法基础:单链表图解及模板总结

timerring

算法 11月月更 单链表

阿里技术风险与效能部负责人张瓅玶:阿里集团深度用云实践

云布道师

云计算

react源码分析:深度理解React.Context

flyzz177

React

《算法》世界二

初学者

算法 网络 11月月更

OpenHarmony 3.2 Beta多媒体系列——音视频播放gstreamer

OpenHarmony开发者

OpenHarmony

AR手势识别交互,让应用更加“得心应手”

HarmonyOS SDK

HMS Core

「风控算法服务平台」高性能在线推理服务设计与实现

京东科技开发者

Python 数据 高性能 风控 风险控制

《算法》世界一

初学者

算法 网络 11月月更

MASA Framework 事件总线 - 进程内事件总线

MASA技术团队

Framework MASA Framewrok MASA

机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?_云原生_Tina_InfoQ精选文章