写点什么

机房锂电池火灾致阿里等多家大厂服务瘫痪,超 30 小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

  • 2024-09-13
    北京
  • 本文字数:3313 字

    阅读完需:约 11 分钟

大小:1.51M时长:08:46
机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

9 月 10 日上午,阿里云因新加坡可用区 C 数据中心发生火灾,导致主要科技公司服务中断,火灾原因已确定为锂电池爆炸。据外媒报道,10 日早上约 8 点发生的机房火灾,截至 11 日下午 8 点,已持续 36 小时,仍未完全扑灭。

 

根据阿里云发布的官方声明,关键云产品受到影响,包括云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute。阿里云今日凌晨更新了相关进展,称大部分受网络影响的云产品已恢复正常运行,但仍有部分业务因机房断电需等待物理条件恢复。

 

昨晚 20:23,消防部门仍在现场处理大楼的安全风险,运维工程师正在等待进入机房的许可。如果现场评估显示不具备原地恢复的条件,应急小组将执行服务器设备的迁移恢复方案。

 

专注于数据中心的媒体 W.Media 报道称,此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司的服务造成了“严重中断”。




在 Lazada 以及 TikTok Shop 等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop 的用户也透露,系统故障使得小黄车功能无法正常使用。Lazada 和 TikTok Shop 方面已经对受影响的订单进行了延期处理。

 



在社交平台上,报告异常的也不少,部分 TikTok 用户也反馈,新加坡发布的视频无法获得正常流量。而 Twitter 上也有新加坡等地方的用户表示 Tiktok 有宕机的情况。

 



该数据中心不仅托管了阿里云服务器和字节的网络设备,还包括一些其他跨国公司的服务器。有用户报告称,Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现了宕机或服务降级,似乎与此次火灾有关。

 

有意思的是,AWS 的销售也趁此机会安利自家服务:

 


机房火灾由锂电池爆炸引发,持续超 30 小时

 

据当地媒体报道,该数据中心属于美国数据中心房地产投资信托 Digital Realty 名下。

 

火灾始于当地时间周二上午,有群众在事发前听到爆炸声,随后数据中心冒出滚滚浓烟,现场能闻到一股呛鼻的烧焦味。锂电池爆炸的威力巨大,瞬间引发了火灾,并使得火势迅速蔓延。

 

运营该处计算设施的 Digital Realty 公司发言人解释称,“2024 年 9 月 10 日上午 7:45,我们发现 SIN11 数据中心触发火灾警报。所有现场人员于 8:15 前安全撤离,事故未造成人员受伤。”

 

事故发生在数据中心一栋建筑的电池室内。新加坡民防部队(消防组织)发表公告称,火患波及数据中心三楼阁楼内的两个电池房、两个电源房和一个设备储藏室。

 


根据报道来看,此次事件灭火的手段包括四个水枪、房内洒水灭火系统、灭火机器人等。为确保火源不再复燃,消防人员也一直留守在数据中心外面,“需要通过降温和浇湿措施来控制连锁反应”。

 


但截至 11 日晚,失火的数据中心仍有两处冒着浓烟。

 

在火灾持续的 30 多个小时里,灭火工作面临着诸多挑战。一方面,锂离子电池通常用于从智能手机到电动汽车的设备中,此类火灾因难以彻底扑灭而著称。即使初期火焰被扑灭,锂离子电池的内部化学反应仍会持续生成热量并提供燃料,导致自燃复燃。另一方面,这类火灾会释放有毒气体,如氟化氢及其他有害物质,增加了对消防员的风险,也使灭火过程更为复杂。此外,数据中心通常采用封闭式设计,通风条件有限,不利于烟雾的排出,也给灭火工作带来了困难。

 

业界对于用水消防抑制锂电池火灾有所争议,有观点认为当锂电池起火时,水分可能导致电池短路,从而加剧火势。此外,水与锂电池的正负极材料和电解液发生剧烈反应,产生的气体和热量可能引发爆炸,进一步加重火灾。

 

相比之下,全氟己酮作为灭火剂表现出优异的效果,能够迅速扑灭电池外部的明火。它安全性较高,且对环境友好,喷发后能快速汽化,吸收大量热量,隔绝空气中的氧气,从而实现窒息灭火。

 

9 月 11 日(昨天)晚 8 点,当地媒体报道称,消防员仍在现场进行浇湿工作。

 

而大楼建筑结构也受到些许损坏,作为预防措施,建设局将对建筑的三楼、三楼阁楼和四楼的一些区域发出危楼令(Dangerous Building Order)和封闭令(Closure Order)。

 

机房被水淹没,阿里云业务受严重影响

 

受到这起火灾影响的企业则被告知须启动灾难事态下的业务连续性计划。

 


阿里云的状态报告称,该公司于周二 10:20(新加坡标准时间)检测到新加坡区域 C 可用区发生异常,“导致部分云服务无法正常运行”。

 

后续发布的更新指出,“此次异常是由新加坡数据中心的锂电池爆炸引发,爆炸导致现场起火及温度升高。”

 

作为中国云服务领域的头部厂商之一,阿里云声称其灾难恢复与故障转移程序已按预期运行,意味着高可用性云产品达到了承诺的服务水平,但表示部分用户仍须手动将工作负载从受火灾影响的可用区迁出。

 

目前阿里云方面正在等待数据中心恢复正常,至少部分其他服务和产品则被迫下线。

 

截至本周二晚 20:04,这家云服务公司报告称“火灾警报尚未完全消除”,工作人员无法进入着火的建筑,数据中心内一些网络设备“在高温环境下已出现异常”,影响到部分云产品的网络连接。

 

客户收到警告信息,称“新加坡 C 可用区遭遇网络完全中断的可能性正在增加”,通知建议“如果您的业务部署在新加坡 C 可用区,我们将尽快协助您进行业务迁移。”

 

到周三凌晨 1:46 时,情况开始进一步恶化。

 

阿里巴巴方面表示,“机房开始出现积水和泄漏,电路存在短路风险”,因此需要对新加坡 C 可用区的一栋建设进行紧急断电。其他建筑的网络服务则已逐步恢复。

 

Digital Realty 向媒体证实,截至周三凌晨 1:45,部分电气系统已经顺利关闭。

 


数据中心火灾频发

 

数据中心是数据存储和处理的关键基础设施,其安全性至关重要。近年来,全球范围内发生的数据中心火灾已造成巨大的经济损失。回顾近年数据中心火灾事故,显示出这一问题的严重性和紧迫性。

 

2022 年 8 月,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成 3 人受伤。该数据中心是谷歌最大的数据中心之一,其于 2009 年首次启用。事故发生后,据宕机追踪网站 Downdetector.com 数据显示,美国有超过 4 万人报告无法使用谷歌搜索。

 

因电池起火造成的意外事故也并不鲜见。2022 年 10 月,韩国 SK 公司 C&C 板桥数据中心发生火灾,大火在大约 8 小时后被扑灭。经调查发现,安装在地下三层电气设备室的 5 个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

 

本次火灾导致了约 3.2 万个服务器瘫痪,数千万用户服务受到影响。数据中心失火后,包括 Kakao Talk 在内的 Kakao 系列服务中断了一天左右才逐步恢复。火灾之后,韩国科技部长官李宗昊就数据中心失火导致网络平台瘫痪一事致歉,几天之后,Kakao 联席 CEO 也因此引咎辞职。

 

法国云巨头 OVH 也曾因 UPS(不间断电源)起火导致一处数据中心下线。2021 年 3 月,这家法国运营商的 SBG2 数据中心发生了波及整栋大楼的起火事故,导致该区域的 4 个数据中心,一个被完全烧毁,另有一个部分受损。

 


起火后,瘫痪的法国政府、企业与公共事业网站达到约 360 万个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25 台欧洲服务器完全损毁,没有备份,数据无法被修复。事后,超过 130 名客户加入了集体诉讼,指责 OVHcloud 未尽充分义务,且没有为受损失的企业提供足够的赔偿。该公司迟迟不披露起火原因,并坚称必须等待官方报告。

 

在火灾发生一年后,Bas-Rhin 消防局发布了一份调查报告,强烈批评这家法国运营商的设施。由事故调查报告可知,这座数据中心存在相当多的消防隐患,包括:采用了标称耐火仅一小时的木质天花板、未配备自动灭火装置、也没有通用电气切断开关。不过更让消防人员遗憾的是,这处设施还有一种自然冷却设计,这也创造了可增加火势的“烟囱效应”。

 

参考链接:

https://www.zaobao.com.sg/realtime/singapore/story20240911-4696962

https://www.channelnewsasia.com/singapore/fire-loyang-digital-realty-data-centre-scdf-operation-4599316

https://www.theregister.com/2024/09/10/digtal_realty_singapore_datacenter_fire/

https://www.dny123.com/t/fqwoBz3I

https://www.channelnewsasia.com/singapore/loyang-data-centre-fire-digital-realty-damping-down-operations-4601471

https://www.sohu.com/a/594134841_210640

https://m.chinanews.com/wap/detail/chs/zw/9875402.shtml

https://www.infoq.cn/article/uuf06fYgW2vi3yd3pwzR

2024-09-13 14:2512906

评论 1 条评论

发布
用户头像
UPS电池
2024-09-21 23:18 · 广东
回复
没有更多了
发现更多内容

安装R语言编译器:

唯爱

【写作群星榜】5.22~5.28写作平台优秀作者&文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

控制 Pod 内容器的启动顺序

张晓辉

Kubernetes

只用CSS实现响应式Full-Width img 2种方法

寇云

CSS css3

服务化构建-多维度的认识中台

图南日晟

软件工程 分层架构 架构设计

小谈校招offer选择

dongh11

职场 职业规划 应届毕业 心态 招聘

深入浅出Mysql索引的那些事儿

猿人谷

MySQL 性能优化 索引

超简单入门MyBatis,看了就会了~

程序员的时光

mybatis

MySQL死锁系列-常见加锁场景分析

程序员历小冰

MySQL

ARTS|Week 1 第一次使用LeetCode

Puran

LeetCode ARTS活动

Eureka 实例注册状态保持 STARTING 的问题排查

张晓辉

spring Spring Cloud netflix

Vol.8 云栖小镇游记

pyfn2030

阿里云 随笔 数字化转型

Rust 遇上 C/C++(二):函数传参

Coding Fatty

c c++ rust 编程语言

认识数据产品经理(四 与互联网产品经理的区别)

马踏飞机747

大数据 互联网 产品经理 职业规划

Dataway 整合 Swagger2,让 API 管理更顺畅

哈库纳

Spring Boot DataQL Dataway Hasor

服务化架构-状态码设计要点

图南日晟

微服务 RESTful 架构设计

Java 学习笔记(三)数据类型

杜朋

Vol.9 Web前端发展历程及前端工程化

pyfn2030

大前端

磁盘挂载

唯爱

珍藏已久的 OS 学习网站拿出来分享给大家

苹果看辽宁体育

操作系统

在培训机构花了好几万学Java,当了程序员还常被鄙视,这是招谁惹谁了?

四猿外

Java 学习 程序员 个人成长

tput命令介绍

唯爱

避免争执

孙苏勇

职场 随笔杂谈

《中国互联网简史》系列笔记之P2P

dongh11

读书笔记

时序数据库

pydata

游戏夜读 | vim,vim,vim

game1night

Vol.7 聊聊我热爱的陕西省图书馆

pyfn2030

记录 生活,随想

金灿灿的季节 - Apache DolphinScheduler收获5位新Committer

代立冬

XSKY发布XMotion纳管热迁移技术,OpenStack集群迁移效率提升超10倍

XSKY星辰天合

不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。

JackTian

Python 程序员 数据分析 python 爬虫 口红

解决版权难题,“豪横”字体自己做

zhoo299

设计 CG

机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?_云原生_Tina_InfoQ精选文章