在最近的一篇 博客文章 中,Meta 描述了其工程师如何使用强化学习(RL)来优化 Meta 数据中心的环境控制策略,从而减少能源消耗和用水量,同时应对气候变化等更广泛的挑战。强化学习是机器学习和最优控制领域的一个分支,专注研究智能代理如何在不断变化的环境中做出决策以获得最大的奖励信号。
Meta 基于强化学习的方法已被证明可有效优化数据中心的冷却系统,该系统消耗大量能源和水。尤其是在适应不断变化的天气条件时这种方法非常突出。
自 2021 年以来,Meta 的工程师已应用 RL 来改善各种天气条件下的冷却气流供应。冷却系统是 Meta 数据中心的第二大资源消耗者,仅次于 IT 负载。优化这些系统不仅可以减少能源使用,而且对减少水消耗和温室气体(GHG)排放都有深远的影响。一个试点地区已取得了令人印象深刻的成果,将送风机的能耗降低了 20%,用水量降低了 4%。
Meta 的数据中心主要使用室外空气和蒸发冷却系统来将温度保持在 65°F 至 85°F(18°C 至 30°C)之间,相对湿度保持在 13% 至 80% 之间(数据来自 可持续发展报告)。这种方法既节水又节能,但需要进一步优化以减少必须调节的空气量。这就是强化学习发挥关键作用的地方。
首先来看一下冷却系统是如何工作的。Meta 的数据中心使用两层阁楼设计,吸入的空气 100% 都来自室外。这种空气由一些调节阻尼器调节,并在必要时与服务器排气的热量混合以平衡温度。在经过过滤器和雾化室后,空气被冷却和加湿,然后通过风扇推入服务器机房。该系统还将热空气排出建筑物,以保持高效的空气循环。水在蒸发冷却和加湿中起着关键作用,将空气温度和湿度保持在最佳范围内。
Meta 数据中心内的顶层冷却系统
在优化气流时,需要调整三个控制回路(温度、湿度和气流),以确保冷却系统高效运行。然而,考虑到所涉及的复杂性,气流设定点的建模尤其具有挑战性,因为它们受数据中心内局部条件的影响。RL 会根据实时数据和环境条件动态调整气流来帮助解决这种复杂性。
强化学习是数据中心冷却方案的理想选择,因为它将控制系统建模为一系列连续状态。RL 代理以争取奖励的形式从环境中获取反馈来获取宝贵的知识,特别是关于节能和节水的知识。通过分析从数千个传感器收集的数据,RL 可以微调气流设定点,以实现最佳冷却效率,同时保持在运行参数范围内。
为了确保可靠性,Meta 的工程师使用了一种基于模拟器的 RL 方法。这种方法允许工程师在一个模拟环境中训练 RL 模型,该环境反映了真实的数据中心条件。该模拟器使用基于物理的模型来预测建筑物系统将如何响应天气、IT 负载和其他变量的变化。通过结合历史数据和模拟数据,RL 模型可以被训练为能够处理各种条件,确保冷却系统即使在异常情况下也能保持高效。这种离线方法降低了在实时环境中直接部署 RL 模型的风险,例如导致热安全漏洞或服务中断。
RL 试点项目的结果令人鼓舞。通过控制送风流量设定点,工程师们设法保持稳定的温度条件,同时减少冷却所需的空气量。这意味着送风机可显著节省能源,并减少蒸发冷却期间的用水量。
Meta 正在应用相同的 RL 方法来优化其新数据中心的设计,这些数据中心是专门为支持人工智能负载而建设的。通过将 RL 集成到设计阶段,Meta 的工程师希望确保这些新数据中心从一开始就具有可持续性。此外,他们正在现有的数据中心推广这种强化学习方法,以在未来几年内最大限度地节省能源和水资源。
谷歌和微软也在使用人工智能来改进他们的数据中心。DeepMind 节省了 谷歌数据中心 40% 的冷却能源。微软推出了 人工智能驱动的异常检测方法 来监控和解决其数据中心内电力和水使用的异常情况。这些方法利用了来自电气和机械设备的遥测数据。此外,微软采用基于人工智能的技术来检测和解决电表问题,并确定最佳的服务器位置,从而减少电力、网络和冷却能力的浪费。
总之,使用强化学习进行数据中心冷却优化是 Meta 长期可持续发展战略的关键组成部分。通过利用人工智能提高数据中心的效率,他们正在采取有意义的措施减少对环境的影响,同时满足数字基础设施日益增长的需求。
查看原文链接:
https://www.infoq.com/news/2024/10/data-center-sustainability-ai/
评论