随着夏季“三伏天”的到来,所有企业都会面临 IT 系统运转温度上升的问题,气温越高的地区,服务器所面临的因过热导致的宕机风险就越大。
对于中小型企业服务器来说,过热可能是一个大问题,因为过热的服务器通常会消耗更多的能源,更频繁地发生故障并且更有可能崩溃。
对于大多数公司而言,服务器崩溃可能意味着数小时或数天的停机时间、员工生产力低下、巨大的压力甚至是不可估量的经济损失。
因天气过热,全球宕机事件频发
7 月 19 日,当英国东部的水银温度达到 40.3C (104.5F) 时,此地多处数据中心无法承受如此高的温度而发生宕机。
数据中心是大型高度安全的建筑群,拥有大量计算机,并且为许多在线服务提供动力源。但是集中的计算能力会散发出超级多的热量,所以数据中心的冷却系统是必不可少的。
科技巨头谷歌和甲骨文因伦敦数据中心的冷却系统出现故障而发生宕机。
多个甲骨文云基础设施资源处于离线状态,包括其位于英国南部的服务器提供的网络、存储和计算。根据甲骨文团队的状态更新,数据中心的两个冷却器单元在运行时因温度过高发生了故障,技术人员关闭设备以防止硬件烧毁。甲骨文团队表示:
“由于该地区的非季节性气温,英国南部(伦敦)数据中心内的一部分冷却基础设施遇到了问题。因此,一些客户可能无法访问或使用该地区托管的甲骨文云基础设施资源。”
“相关服务团队已参与并正在努力将受影响的基础设施恢复到健康状态,但作为预防措施,我们正在确定可以安全关闭的服务基础设施,以防止出现额外的硬件故障。这些正在采取措施,旨在限制对客户造成任何长期影响的可能性。”
随后不到一天的时间里,甲骨文在官网发布更新称数据中心的温度“已经达到可工作的水平”,但仍在修复其冷却系统。
随着英国的炙烤,过热问题也袭击了伦敦的谷歌云数据中心。
谷歌云服务表示,其中一座建筑的故障与“冷却有关”,事故发生在英国夏令时周二下午 6 点 13 分,但该问题在周三英国夏令时 07:00 得到解决,谷歌云服务表示,“这导致了相关区域的部分容量故障,迫使虚拟机宕机,给一小部分客户造成了损失。”
为了防止损坏机器和延长停机时间,该公司表示已关闭其中一些机器。
谷歌云服务的客户非常看重该公司的数据处理能力,因此谷歌云服务团队为数据中心建立了许多备份,包括大量的冷却能力。
英国的一些专家由于此次甲骨文以及谷歌此次宕机事件对现代数据中心的高可用产生了质疑,他们认为像谷歌这样资源充足的大型公司发生的宕机事件更应该让所有运营商对创纪录的高温保持警惕。
在哈罗盖特、伦敦、雷丁和剑桥等地经营数据中心的 Redcentric 的 Paul Hone 在接受 BBC 采访时表示,该公司已于周一采取了一些补救措施来修复那些因为气温过高受损的冷却系统和服务器。
Hone 先生补充说,虽然数据中心在建立时就设置了抵御炎热天气的冷却系统,但如此高的温度还是超出了许多数据中心运营商的预期。
目前还不清楚这两次宕机会影响到多少用户,但宕机可能会给使用 Oracle 和谷歌 Cloud 服务托管网站的用户带来问题。
气温过高,数据中心该如何应对?
夏天的到来意味着温度的急剧攀升和随之而来的能耗增加。额外的冷却意味着额外的电力消耗,这反过来又意味着碳排放量的增加。
气候科学家警告说,炎热的日子将变得更加频繁,科技公司正在探索更环保的冷却解决方案和计算机系统,以减少电力消耗和产生的热量。
2018 年,微软做了一次疯狂的实验——将一所位于奥克尼海岸附近的数据中心沉没到深海中。两年后,微软将该数据中心从海底打捞出来,船上的 800 多台服务器中只有 8 台出现故障。之所以会进行这样一次实验,是因为微软认为,如果计算机处于水下,利用周围海水提供的自然冷却会大大降低计算机的冷却成本。但是,这个实验性任务并未使用实际的商业服务器,水下的容器内存储的是微软内部用于测试的数据。
对于一个数据中心来说,800 多台服务器的容量从专业角度来看,显然也是不够的。不过,微软相信,这个方法在未来是可扩展的。
使用水来冷却服务器是具有一定可行性的,但在数据中心运作的许多干旱地区,水资源严重匮乏。为了使其在这些炎热和干燥的气候中的水足迹降至零,微软计划采用一种新的方式来冷却服务器,即将它们浸泡在基于碳氟化合物的液体中。当服务器工作时,它们产生的热量使液体在达到华氏 122 度(摄氏 50 度)时沸腾。沸腾的液体将热量从服务器上移开,然后变成上升的蒸气。蒸汽碰到冷却的水箱盖子,凝结,然后降回水箱中。这个过程被称为两相液体浸泡,创造了一个闭环冷却系统,减少了水和电的使用,同时得到了冷却效果。
除了微软的”水冷“降温方式外,目前全球许多的科技公司服务器都还在使用“风冷”技术降温。这种风冷技术就是利用自然环境的风能资源来实现空间散热法。
比如美国的亚马逊公司、我国的阿里云等大型科技公司,都把数据中心建设在了我国西部地区宁夏境内,其目的就是充分利用宁夏的独特气候条件——风能,来达到自然风制冷效果。
但是"风冷"也会存在一定限制,毕竟全年 365 天不可能每天大风不断。所以更多的企业会选择更加稳定和物理降温方式,比如选择一个地理环境和气候条件都可以是“天然空调房”的位置,因此,拥有很多喀斯特地貌所形成的天然溶洞、且夏季平均气温 25 摄氏度左右的贵州省安新区的大山中就成了华为、苹果、腾讯等科技巨头的理想选择。
参考链接:
https://www.theverge.com/2022/7/19/23270581/google-cloud-oracle-servers-outage-uk-cooling-failure
https://www.bbc.com/news/technology-62202125
评论