写点什么

Meta 利用强化学习优化数据中心的可持续性

作者:Claudio Masolo

  • 2024-11-26
    北京
  • 本文字数:1661 字

    阅读完需:约 5 分钟

Meta 利用强化学习优化数据中心的可持续性

在最近的一篇 博客文章 中,Meta 描述了其工程师如何使用强化学习(RL)来优化 Meta 数据中心的环境控制策略,从而减少能源消耗和用水量,同时应对气候变化等更广泛的挑战。强化学习是机器学习和最优控制领域的一个分支,专注研究智能代理如何在不断变化的环境中做出决策以获得最大的奖励信号。


Meta 基于强化学习的方法已被证明可有效优化数据中心的冷却系统,该系统消耗大量能源和水。尤其是在适应不断变化的天气条件时这种方法非常突出。


自 2021 年以来,Meta 的工程师已应用 RL 来改善各种天气条件下的冷却气流供应。冷却系统是 Meta 数据中心的第二大资源消耗者,仅次于 IT 负载。优化这些系统不仅可以减少能源使用,而且对减少水消耗和温室气体(GHG)排放都有深远的影响。一个试点地区已取得了令人印象深刻的成果,将送风机的能耗降低了 20%,用水量降低了 4%。


Meta 的数据中心主要使用室外空气和蒸发冷却系统来将温度保持在 65°F 至 85°F(18°C 至 30°C)之间,相对湿度保持在 13% 至 80% 之间(数据来自 可持续发展报告)。这种方法既节水又节能,但需要进一步优化以减少必须调节的空气量。这就是强化学习发挥关键作用的地方。


首先来看一下冷却系统是如何工作的。Meta 的数据中心使用两层阁楼设计,吸入的空气 100% 都来自室外。这种空气由一些调节阻尼器调节,并在必要时与服务器排气的热量混合以平衡温度。在经过过滤器和雾化室后,空气被冷却和加湿,然后通过风扇推入服务器机房。该系统还将热空气排出建筑物,以保持高效的空气循环。水在蒸发冷却和加湿中起着关键作用,将空气温度和湿度保持在最佳范围内。


Meta 数据中心内的顶层冷却系统


在优化气流时,需要调整三个控制回路(温度、湿度和气流),以确保冷却系统高效运行。然而,考虑到所涉及的复杂性,气流设定点的建模尤其具有挑战性,因为它们受数据中心内局部条件的影响。RL 会根据实时数据和环境条件动态调整气流来帮助解决这种复杂性。


强化学习是数据中心冷却方案的理想选择,因为它将控制系统建模为一系列连续状态。RL 代理以争取奖励的形式从环境中获取反馈来获取宝贵的知识,特别是关于节能和节水的知识。通过分析从数千个传感器收集的数据,RL 可以微调气流设定点,以实现最佳冷却效率,同时保持在运行参数范围内。


为了确保可靠性,Meta 的工程师使用了一种基于模拟器的 RL 方法。这种方法允许工程师在一个模拟环境中训练 RL 模型,该环境反映了真实的数据中心条件。该模拟器使用基于物理的模型来预测建筑物系统将如何响应天气、IT 负载和其他变量的变化。通过结合历史数据和模拟数据,RL 模型可以被训练为能够处理各种条件,确保冷却系统即使在异常情况下也能保持高效。这种离线方法降低了在实时环境中直接部署 RL 模型的风险,例如导致热安全漏洞或服务中断。


RL 试点项目的结果令人鼓舞。通过控制送风流量设定点,工程师们设法保持稳定的温度条件,同时减少冷却所需的空气量。这意味着送风机可显著节省能源,并减少蒸发冷却期间的用水量。


Meta 正在应用相同的 RL 方法来优化其新数据中心的设计,这些数据中心是专门为支持人工智能负载而建设的。通过将 RL 集成到设计阶段,Meta 的工程师希望确保这些新数据中心从一开始就具有可持续性。此外,他们正在现有的数据中心推广这种强化学习方法,以在未来几年内最大限度地节省能源和水资源。


谷歌和微软也在使用人工智能来改进他们的数据中心。DeepMind 节省了 谷歌数据中心 40% 的冷却能源。微软推出了 人工智能驱动的异常检测方法 来监控和解决其数据中心内电力和水使用的异常情况。这些方法利用了来自电气和机械设备的遥测数据。此外,微软采用基于人工智能的技术来检测和解决电表问题,并确定最佳的服务器位置,从而减少电力、网络和冷却能力的浪费。


总之,使用强化学习进行数据中心冷却优化是 Meta 长期可持续发展战略的关键组成部分。通过利用人工智能提高数据中心的效率,他们正在采取有意义的措施减少对环境的影响,同时满足数字基础设施日益增长的需求。


查看原文链接:

https://www.infoq.com/news/2024/10/data-center-sustainability-ai/

2024-11-26 08:036880

评论

发布
暂无评论

Android系统 Bitmap 内存分配原理与优化

vivo互联网技术

android BitMap 内存优化

图的应用——最短路径

若尘

数据结构 最短路径

架构实战营第一模块作业

tt

#架构实战营

模块一作业:微信业务架构图&学生管理平台

babos

#架构实战营

基于标签的实时短视频推荐系统(三十)

Databri_AI

实时计算 推荐系统 标签

架构实战营 模块一

Cingk

#架构实战营

Pandas高级教程之:plot画图详解

程序那些事

Python 数据分析 程序那些事;

【LeetCode】大餐计数Java题解

Albert

算法 LeetCode 7月日更

抖音内测同城圈子:旧瓶装新酒能否获得用户认可

石头IT视角

模块一作业

秀聪

架构实战营

保姆级:Markdown入门教程

Peter

互联网 写作 markdown 工具软件

FIL币价格今日行情!FIL币价格最新消息!

区块链 IPFS fil

日志监控ELK搭建

陈靓-哲露

ELK ES

Rust从0到1-智能指针-Box<T>

rust 智能指针 smart pointer box

使用 docker 构建时取出构建文件的三种方法

耳东@Erdong

Docker 7月日更 docker build

每天学习10个实用Javascript代码片段(二)

devpoint

JavaScript set 7月日更

模块一作业

俊杰

#架构实战营

想学网络安全,从哪里开始?网络安全的学习路线

小桃

黑客 网络安全 Web 网络安全it路线图

微信及学生管理系统架构分析

summer

架构实战营

实现「双碳」目标 高光谱来助力

云计算

架构实战:模块一学习任务

buoge

架构实战营

🏆(不要错过!)【CI/CD技术专题】「Jenkins实战系列」(1)全流程介绍Jenkins环境搭建+基础部署配置(Windows->Linux)

洛神灬殇

jenkins CI/CD 部署 7月日更

Redisson 分布式锁源码 05:公平锁加锁

程序员小航

redis 源码 分布式锁 redisson redisson 分布式锁

【Flutter 专题】94 初识 MediaQuery

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 7月日更

Go 学习笔记之 常量数据类型

架构精进之路

Go 语言 7月日更

在线RGB和HEX十六进制颜色互转工具

入门小站

工具

模块七作业

梦寐凯旋

#架构实战营

ArrayList源码分析及扩容机制

Ayue、

数据结构 ArrayList

模块一作业

king

巧妙!如何检测一个链表是否有环?

实力程序员

MySQL的存储引擎

卢卡多多

MySQL 数据库 7月日更

Meta 利用强化学习优化数据中心的可持续性_Meta_InfoQ精选文章