【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

谷歌和甲骨文服务器在英国“热崩了”,有人“掏山”、有人“沉海”,数据中心该如何应对高温挑战?  

  • 2022-07-25
  • 本文字数:2339 字

    阅读完需:约 8 分钟

谷歌和甲骨文服务器在英国“热崩了”,有人“掏山”、有人“沉海”,数据中心该如何应对高温挑战?   

 随着夏季“三伏天”的到来,所有企业都会面临 IT 系统运转温度上升的问题,气温越高的地区,服务器所面临的因过热导致的宕机风险就越大。

 

对于中小型企业服务器来说,过热可能是一个大问题,因为过热的服务器通常会消耗更多的能源,更频繁地发生故障并且更有可能崩溃。

 

对于大多数公司而言,服务器崩溃可能意味着数小时或数天的停机时间、员工生产力低下、巨大的压力甚至是不可估量的经济损失。

 

因天气过热,全球宕机事件频发

 

7 月 19 日,当英国东部的水银温度达到 40.3C (104.5F) 时,此地多处数据中心无法承受如此高的温度而发生宕机。

 

数据中心是大型高度安全的建筑群,拥有大量计算机,并且为许多在线服务提供动力源。但是集中的计算能力会散发出超级多的热量,所以数据中心的冷却系统是必不可少的。

 

科技巨头谷歌和甲骨文因伦敦数据中心的冷却系统出现故障而发生宕机。

 

多个甲骨文云基础设施资源处于离线状态,包括其位于英国南部的服务器提供的网络、存储和计算。根据甲骨文团队的状态更新,数据中心的两个冷却器单元在运行时因温度过高发生了故障,技术人员关闭设备以防止硬件烧毁。甲骨文团队表示:

 

“由于该地区的非季节性气温,英国南部(伦敦)数据中心内的一部分冷却基础设施遇到了问题。因此,一些客户可能无法访问或使用该地区托管的甲骨文云基础设施资源。”

 

“相关服务团队已参与并正在努力将受影响的基础设施恢复到健康状态,但作为预防措施,我们正在确定可以安全关闭的服务基础设施,以防止出现额外的硬件故障。这些正在采取措施,旨在限制对客户造成任何长期影响的可能性。”

 

随后不到一天的时间里,甲骨文在官网发布更新称数据中心的温度“已经达到可工作的水平”,但仍在修复其冷却系统。

 

随着英国的炙烤,过热问题也袭击了伦敦的谷歌云数据中心。

 

谷歌云服务表示,其中一座建筑的故障与“冷却有关”,事故发生在英国夏令时周二下午 6 点 13 分,但该问题在周三英国夏令时 07:00 得到解决,谷歌云服务表示,“这导致了相关区域的部分容量故障,迫使虚拟机宕机,给一小部分客户造成了损失。”

 

为了防止损坏机器和延长停机时间,该公司表示已关闭其中一些机器。

 

谷歌云服务的客户非常看重该公司的数据处理能力,因此谷歌云服务团队为数据中心建立了许多备份,包括大量的冷却能力。

 

英国的一些专家由于此次甲骨文以及谷歌此次宕机事件对现代数据中心的高可用产生了质疑,他们认为像谷歌这样资源充足的大型公司发生的宕机事件更应该让所有运营商对创纪录的高温保持警惕。

 

在哈罗盖特、伦敦、雷丁和剑桥等地经营数据中心的 Redcentric 的 Paul Hone 在接受 BBC 采访时表示,该公司已于周一采取了一些补救措施来修复那些因为气温过高受损的冷却系统和服务器。

 

Hone 先生补充说,虽然数据中心在建立时就设置了抵御炎热天气的冷却系统,但如此高的温度还是超出了许多数据中心运营商的预期。

 

目前还不清楚这两次宕机会影响到多少用户,但宕机可能会给使用 Oracle 和谷歌 Cloud 服务托管网站的用户带来问题。

 

气温过高,数据中心该如何应对?

 

夏天的到来意味着温度的急剧攀升和随之而来的能耗增加。额外的冷却意味着额外的电力消耗,这反过来又意味着碳排放量的增加。

 

气候科学家警告说,炎热的日子将变得更加频繁,科技公司正在探索更环保的冷却解决方案和计算机系统,以减少电力消耗和产生的热量。

 

2018 年,微软做了一次疯狂的实验——将一所位于奥克尼海岸附近的数据中心沉没到深海中。两年后,微软将该数据中心从海底打捞出来,船上的 800 多台服务器中只有 8 台出现故障。之所以会进行这样一次实验,是因为微软认为,如果计算机处于水下,利用周围海水提供的自然冷却会大大降低计算机的冷却成本。但是,这个实验性任务并未使用实际的商业服务器,水下的容器内存储的是微软内部用于测试的数据。

 

对于一个数据中心来说,800 多台服务器的容量从专业角度来看,显然也是不够的。不过,微软相信,这个方法在未来是可扩展的。

 

使用水来冷却服务器是具有一定可行性的,但在数据中心运作的许多干旱地区,水资源严重匮乏。为了使其在这些炎热和干燥的气候中的水足迹降至零,微软计划采用一种新的方式来冷却服务器,即将它们浸泡在基于碳氟化合物的液体中。当服务器工作时,它们产生的热量使液体在达到华氏 122 度(摄氏 50 度)时沸腾。沸腾的液体将热量从服务器上移开,然后变成上升的蒸气。蒸汽碰到冷却的水箱盖子,凝结,然后降回水箱中。这个过程被称为两相液体浸泡,创造了一个闭环冷却系统,减少了水和电的使用,同时得到了冷却效果。

 

除了微软的”水冷“降温方式外,目前全球许多的科技公司服务器都还在使用“风冷”技术降温。这种风冷技术就是利用自然环境的风能资源来实现空间散热法。

 

比如美国的亚马逊公司、我国的阿里云等大型科技公司,都把数据中心建设在了我国西部地区宁夏境内,其目的就是充分利用宁夏的独特气候条件——风能,来达到自然风制冷效果。

 

但是"风冷"也会存在一定限制,毕竟全年 365 天不可能每天大风不断。所以更多的企业会选择更加稳定和物理降温方式,比如选择一个地理环境和气候条件都可以是“天然空调房”的位置,因此,拥有很多喀斯特地貌所形成的天然溶洞、且夏季平均气温 25 摄氏度左右的贵州省安新区的大山中就成了华为、苹果、腾讯等科技巨头的理想选择。

 

参考链接:

 

https://www.theverge.com/2022/7/19/23270581/google-cloud-oracle-servers-outage-uk-cooling-failure

https://www.bbc.com/news/technology-62202125

https://ocistatus.oraclecloud.com/#/incidents/ocid1.oraclecloudincident.oc1.phx.amaaaaaavwew44aa7zoskanlspjh4ll6wxhwxrbkbed4d4cnupxexzqzvlyq

https://www.bbc.com/news/technology-54146718

https://new.qq.com/omn/20201201/20201201A0DAKF00.html

2022-07-25 14:193483
用户头像
李冬梅 加V:busulishang4668

发布了 772 篇内容, 共 349.4 次阅读, 收获喜欢 973 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL慢查询(上):为啥会这么慢?

架构精进之路

MySQL MySQL优化 MySQL使用 28天写作

架构师训练营第 1 期 - 第 12 周 - 命题作业

wgl

架构师训练营第 1 期

极客大学架构师训练营大作业

Meow

MySQL中的哥哥表、妹妹字段,是什么鬼?

Java MySQL 数据库

架构师第 4 课作业及学习总结

小诗

「架构师训练营第 1 期」

职业成长就是一个逐渐“变帅”的过程

L3C老司机

技术人小故事-团队愿景篇-第1段

Ian哥

28天写作

芯片破壁者(二十四):1987战役启示录

脑极体

资深大牛带你了解源码!阿里内部Android笔记火爆IT圈,醍醐灌顶!

欢喜学安卓

android 程序员 面试 移动开发

SpringBoot系列1——概述和快速入门

程序员的时光

springboot 七日更 28天写作

【Node.js】静态页面和简单的路由

德育处主任

大前端 Node 28天写作

LeetCode题解:17. 电话号码的字母组合,BFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

谬误词典:置信度

lidaobing

随机漫步的傻瓜 28天写作 谬误词典

极客大学架构师训练营大作业

Meow

【薪火计划】08 - 非暴力沟通

AR7

管理 28天写作

腾讯T3面试官透露!360°深入了解Flutter,聪明人已经收藏了!

欢喜学安卓

android 程序员 面试 移动开发

架构师训练营第 1 期 - 第 12 周 - 学习总结

wgl

「架构师训练营第 1 期」

【计算机内功修炼】三:一文彻底理解IO多路复用

码农的荒岛求生

epoll

28天瞎写的第二百一二天:一次删库没跑路的故事

树上

28天写作 删库

架构师训练营第七周课后作业

万有引力

架构师第 3 课作业及学习总结

小诗

「架构师训练营第 1 期」

缓存穿透,缓存击穿,缓存雪崩

en

redis 缓存穿透 缓存击穿 缓存并发

意识会在哪个早晨降落——「幻想短篇1/28」

道伟

28天写作

jstat使用实用教程

JavaPub

Java JVM

手把手教你如何巧用Github的Action功能

flutter android 持续集成

牛啤了!阿里技术官整理的这份《Java面试手册5000题》已经成功让数百名社招生“圆梦BATJ”

Java 编程 面试

网络工程师职业指南

写在再次学习python之前-why篇

赵开忠

Python 28天写作

架构师必会知识大合集:五位架构师手写于西溪园区的技术使用心得

Java架构之路

Java 程序员 架构 面试 编程语言

智能电车小白从入门到了解(Day1/28)

mtfelix

自动驾驶 28天写作 智能电车 电动汽车

架构师训练营 1 期 - 第 十四周总结(vaik)

行之

「架构师训练营第 1 期」

谷歌和甲骨文服务器在英国“热崩了”,有人“掏山”、有人“沉海”,数据中心该如何应对高温挑战?   _文化 & 方法_李冬梅_InfoQ精选文章