QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

机房锂电池火灾致阿里等多家大厂服务瘫痪,超 30 小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

  • 2024-09-13
    北京
  • 本文字数:3313 字

    阅读完需:约 11 分钟

大小:1.51M时长:08:46
机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?

9 月 10 日上午,阿里云因新加坡可用区 C 数据中心发生火灾,导致主要科技公司服务中断,火灾原因已确定为锂电池爆炸。据外媒报道,10 日早上约 8 点发生的机房火灾,截至 11 日下午 8 点,已持续 36 小时,仍未完全扑灭。

 

根据阿里云发布的官方声明,关键云产品受到影响,包括云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute。阿里云今日凌晨更新了相关进展,称大部分受网络影响的云产品已恢复正常运行,但仍有部分业务因机房断电需等待物理条件恢复。

 

昨晚 20:23,消防部门仍在现场处理大楼的安全风险,运维工程师正在等待进入机房的许可。如果现场评估显示不具备原地恢复的条件,应急小组将执行服务器设备的迁移恢复方案。

 

专注于数据中心的媒体 W.Media 报道称,此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司的服务造成了“严重中断”。




在 Lazada 以及 TikTok Shop 等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop 的用户也透露,系统故障使得小黄车功能无法正常使用。Lazada 和 TikTok Shop 方面已经对受影响的订单进行了延期处理。

 



在社交平台上,报告异常的也不少,部分 TikTok 用户也反馈,新加坡发布的视频无法获得正常流量。而 Twitter 上也有新加坡等地方的用户表示 Tiktok 有宕机的情况。

 



该数据中心不仅托管了阿里云服务器和字节的网络设备,还包括一些其他跨国公司的服务器。有用户报告称,Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现了宕机或服务降级,似乎与此次火灾有关。

 

有意思的是,AWS 的销售也趁此机会安利自家服务:

 


机房火灾由锂电池爆炸引发,持续超 30 小时

 

据当地媒体报道,该数据中心属于美国数据中心房地产投资信托 Digital Realty 名下。

 

火灾始于当地时间周二上午,有群众在事发前听到爆炸声,随后数据中心冒出滚滚浓烟,现场能闻到一股呛鼻的烧焦味。锂电池爆炸的威力巨大,瞬间引发了火灾,并使得火势迅速蔓延。

 

运营该处计算设施的 Digital Realty 公司发言人解释称,“2024 年 9 月 10 日上午 7:45,我们发现 SIN11 数据中心触发火灾警报。所有现场人员于 8:15 前安全撤离,事故未造成人员受伤。”

 

事故发生在数据中心一栋建筑的电池室内。新加坡民防部队(消防组织)发表公告称,火患波及数据中心三楼阁楼内的两个电池房、两个电源房和一个设备储藏室。

 


根据报道来看,此次事件灭火的手段包括四个水枪、房内洒水灭火系统、灭火机器人等。为确保火源不再复燃,消防人员也一直留守在数据中心外面,“需要通过降温和浇湿措施来控制连锁反应”。

 


但截至 11 日晚,失火的数据中心仍有两处冒着浓烟。

 

在火灾持续的 30 多个小时里,灭火工作面临着诸多挑战。一方面,锂离子电池通常用于从智能手机到电动汽车的设备中,此类火灾因难以彻底扑灭而著称。即使初期火焰被扑灭,锂离子电池的内部化学反应仍会持续生成热量并提供燃料,导致自燃复燃。另一方面,这类火灾会释放有毒气体,如氟化氢及其他有害物质,增加了对消防员的风险,也使灭火过程更为复杂。此外,数据中心通常采用封闭式设计,通风条件有限,不利于烟雾的排出,也给灭火工作带来了困难。

 

业界对于用水消防抑制锂电池火灾有所争议,有观点认为当锂电池起火时,水分可能导致电池短路,从而加剧火势。此外,水与锂电池的正负极材料和电解液发生剧烈反应,产生的气体和热量可能引发爆炸,进一步加重火灾。

 

相比之下,全氟己酮作为灭火剂表现出优异的效果,能够迅速扑灭电池外部的明火。它安全性较高,且对环境友好,喷发后能快速汽化,吸收大量热量,隔绝空气中的氧气,从而实现窒息灭火。

 

9 月 11 日(昨天)晚 8 点,当地媒体报道称,消防员仍在现场进行浇湿工作。

 

而大楼建筑结构也受到些许损坏,作为预防措施,建设局将对建筑的三楼、三楼阁楼和四楼的一些区域发出危楼令(Dangerous Building Order)和封闭令(Closure Order)。

 

机房被水淹没,阿里云业务受严重影响

 

受到这起火灾影响的企业则被告知须启动灾难事态下的业务连续性计划。

 


阿里云的状态报告称,该公司于周二 10:20(新加坡标准时间)检测到新加坡区域 C 可用区发生异常,“导致部分云服务无法正常运行”。

 

后续发布的更新指出,“此次异常是由新加坡数据中心的锂电池爆炸引发,爆炸导致现场起火及温度升高。”

 

作为中国云服务领域的头部厂商之一,阿里云声称其灾难恢复与故障转移程序已按预期运行,意味着高可用性云产品达到了承诺的服务水平,但表示部分用户仍须手动将工作负载从受火灾影响的可用区迁出。

 

目前阿里云方面正在等待数据中心恢复正常,至少部分其他服务和产品则被迫下线。

 

截至本周二晚 20:04,这家云服务公司报告称“火灾警报尚未完全消除”,工作人员无法进入着火的建筑,数据中心内一些网络设备“在高温环境下已出现异常”,影响到部分云产品的网络连接。

 

客户收到警告信息,称“新加坡 C 可用区遭遇网络完全中断的可能性正在增加”,通知建议“如果您的业务部署在新加坡 C 可用区,我们将尽快协助您进行业务迁移。”

 

到周三凌晨 1:46 时,情况开始进一步恶化。

 

阿里巴巴方面表示,“机房开始出现积水和泄漏,电路存在短路风险”,因此需要对新加坡 C 可用区的一栋建设进行紧急断电。其他建筑的网络服务则已逐步恢复。

 

Digital Realty 向媒体证实,截至周三凌晨 1:45,部分电气系统已经顺利关闭。

 


数据中心火灾频发

 

数据中心是数据存储和处理的关键基础设施,其安全性至关重要。近年来,全球范围内发生的数据中心火灾已造成巨大的经济损失。回顾近年数据中心火灾事故,显示出这一问题的严重性和紧迫性。

 

2022 年 8 月,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成 3 人受伤。该数据中心是谷歌最大的数据中心之一,其于 2009 年首次启用。事故发生后,据宕机追踪网站 Downdetector.com 数据显示,美国有超过 4 万人报告无法使用谷歌搜索。

 

因电池起火造成的意外事故也并不鲜见。2022 年 10 月,韩国 SK 公司 C&C 板桥数据中心发生火灾,大火在大约 8 小时后被扑灭。经调查发现,安装在地下三层电气设备室的 5 个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

 

本次火灾导致了约 3.2 万个服务器瘫痪,数千万用户服务受到影响。数据中心失火后,包括 Kakao Talk 在内的 Kakao 系列服务中断了一天左右才逐步恢复。火灾之后,韩国科技部长官李宗昊就数据中心失火导致网络平台瘫痪一事致歉,几天之后,Kakao 联席 CEO 也因此引咎辞职。

 

法国云巨头 OVH 也曾因 UPS(不间断电源)起火导致一处数据中心下线。2021 年 3 月,这家法国运营商的 SBG2 数据中心发生了波及整栋大楼的起火事故,导致该区域的 4 个数据中心,一个被完全烧毁,另有一个部分受损。

 


起火后,瘫痪的法国政府、企业与公共事业网站达到约 360 万个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25 台欧洲服务器完全损毁,没有备份,数据无法被修复。事后,超过 130 名客户加入了集体诉讼,指责 OVHcloud 未尽充分义务,且没有为受损失的企业提供足够的赔偿。该公司迟迟不披露起火原因,并坚称必须等待官方报告。

 

在火灾发生一年后,Bas-Rhin 消防局发布了一份调查报告,强烈批评这家法国运营商的设施。由事故调查报告可知,这座数据中心存在相当多的消防隐患,包括:采用了标称耐火仅一小时的木质天花板、未配备自动灭火装置、也没有通用电气切断开关。不过更让消防人员遗憾的是,这处设施还有一种自然冷却设计,这也创造了可增加火势的“烟囱效应”。

 

参考链接:

https://www.zaobao.com.sg/realtime/singapore/story20240911-4696962

https://www.channelnewsasia.com/singapore/fire-loyang-digital-realty-data-centre-scdf-operation-4599316

https://www.theregister.com/2024/09/10/digtal_realty_singapore_datacenter_fire/

https://www.dny123.com/t/fqwoBz3I

https://www.channelnewsasia.com/singapore/loyang-data-centre-fire-digital-realty-damping-down-operations-4601471

https://www.sohu.com/a/594134841_210640

https://m.chinanews.com/wap/detail/chs/zw/9875402.shtml

https://www.infoq.cn/article/uuf06fYgW2vi3yd3pwzR

2024-09-13 14:2512823

评论 1 条评论

发布
用户头像
UPS电池
2024-09-21 23:18 · 广东
回复
没有更多了
发现更多内容

PostgreSQL数据迁移至Doris:一站式解决方案

NineData

postgresql Doris 实时数据分析 实时同步 NineData

是什么阻碍了你的成长

老张

个人成长 职场成长

SpringBoot集成ElasticSearch,实现模糊查询,批量CRUD,排序,分页,高亮...

Java技术精选

聊聊我做测试开发的十年心路历程

阿里技术

测试 开发

ECS公网连接指南:精明选择公网IP计费策略

极客天地

软件测试学习笔记丨Allure2报告中添加附件-日志

测试人

软件测试 测试开发

更轻松地部署和升级 NGINX Service Mesh

NGINX开源社区

nginx Kubernetes Helm Service Mesh 服务网格 mTLS

软件测试学习笔记丨Allure2 报告中添加附件(视频)

测试人

软件测试

“专业敏捷教练课程” 6月1-2日 · CSP-SM认证周末班【晋升高阶享多重福利】

ShineScrum

日立公司采用元太科技电子纸实现了无纸化营运

财见

OLAP性能再获突破!火山引擎ByteHouse性能白皮书发布

极客天地

解锁TikTok直播专线,提高使用体验

Ogcloud

海外直播专线 海外直播 tiktok直播 tiktok直播专线 tiktok直播网络

DevOps迈向标准化,平台工程让开发运维更轻松

SEAL安全

DevOps 运维 平台工程

TikTok直播专线是什么?有什么用?

Ogcloud

海外直播专线 海外直播 tiktok直播 tiktok直播专线 海外直播网络

阿里云实时计算Flink的产品化思考与实践【上】

Apache Flink

大数据 flink 实时计算

保障校园网络安全用堡垒机的几个原因分析

行云管家

网络安全 数据安全 堡垒机 等保合规 校园

云端简易指南:快速启动与管理您的ECS实例

极客天地

ChatTuGraph:通过大模型“与图对话”

TuGraphAnalytics

graph FineTuning Text2GQL

如何轻松管理你的海外主机?实用技巧大公开!

一只扑棱蛾子

海外主机

比 MyBatis 效率快 100 倍...

Java技术精选

敏捷开发:想要快速交付就必须舍弃产品质量?

敏捷开发

项目管理 Scrum 敏捷开发 产品研发 研发

最新 Apifox 3 月更新:详解多分支升级、Query 参数支持枚举、自定义快捷键

Apifox

程序员 Apifox API 接口工具 API 工具

一站式大数据开发与治理产品实践

Jackchang234987

元数据 大数据平台 数据开发平台 数据中台数据治理

同城双活:交易链路的稳定性与可靠性探索

得物技术

Java 后端 中间件 双活

新版Redis不再“开源”,对使用者都有哪些影响?

华为云开发者联盟

数据库 redis 华为云 华为云开发者联盟 华为云GeminiDB

库存控制秘诀:鞋服品牌如何避免库存积压风险

第七在线

山东省正规等保测评机构名称以及地址一览表

行云管家

等保 山东 等级保护 等保测评

亚马逊云科技携手埃森哲、Anthropic助力企业打造负责任的AI

财见

分享一些大数据处理算法

宇文辰皓

大数据

机房锂电池火灾致阿里等多家大厂服务瘫痪,超30小时灭火仍未结束:持续浇水,数据中心成“危楼”!?_云原生_Tina_InfoQ精选文章