谷歌首创基于云的AI自治系统，为数据中心自动降温_AI&大模型_DeepMind

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么

2016 年，DeepMind 联合开发了一个人工智能驱动的推荐系统，用以提高谷歌数据中心的能源效率。现在，他们将这个系统提升到一个新的水平：在数据中心运营专家的监督之下直接让 AI 系统控制数据中心的冷却系统。这种首创的基于云的控制系统现在可以安全地为多个谷歌数据中心提供节能服务。

现实世界的很多最紧迫的问题变得越来越复杂，为它们寻求解决方案可能会让人不堪重负。在 DeepMind 和谷歌，谷歌认为，如果其能够将 AI 作为发现新知识的工具，那么就可以更容易得找到解决方案。

2016 年，谷歌联合开发了一个人工智能驱动的推荐系统，用以提高谷歌数据中心的能源效率。谷歌的想法很简单：即使是微小的改进也可以显著地节约能源，减少二氧化碳排放，从而有助于应对气候变化。

现在谷歌将这个系统提升到一个新的水平：谷歌不是通过人为的方式实现推荐系统，而是在数据中心运营专家的监督之下让谷歌的 AI 系统直接控制数据中心的冷却系统。这种首创的基于云的控制系统现在可以安全地为多个谷歌数据中心提供节能服务。

它是怎么运作的

每隔五分钟，谷歌的 AI 系统就会从数千个传感器收集数据中心冷却系统的快照，并将其输入到谷歌的深度神经网络中，用以预测不同的潜在操作的组合将如何影响未来的能源消耗。然后，AI 系统将识别出哪些操作将会最小化能量消耗，同时又能满足安全约束。这些操作被发送回数据中心，数据中心的本地控制系统负责验证和执行它们。

这个想法源于使用 AI 推荐系统的数据中心专家的反馈。他们告诉谷歌，虽然推荐系统已经为他们提供了一些新的最佳实践——例如将冷却负载分散到更多而不是更少的设备上——但实现推荐仍然需要很多的运营工作量和监督。当然，他们想知道谷歌是否可能实现在没有人工干预的情况下实现类似的节能。

谷歌很高兴地说，答案是肯定的！

专为安全和可靠性而设计

谷歌的数据中心包含数千台服务器，用于支持谷歌搜索、Gmail 和 YouTube 等热门服务。确保它们可靠高效地运行是谷歌的关键任务。谷歌从头开始设计谷歌的 AI 代理和底层控制基础设施，并时刻考虑到安全性和可靠性问题，还使用了八种不同的机制来确保系统始终按预期运行。

谷歌已经实现的一个简单方法是预估不确定性。对于每一个潜在的操作——可能有数十亿个——谷歌的 AI 代理会计算出它们的信心指数。低信心指数的操作将不予考虑。

另一种方法是进行双层验证。谷歌将根据由数据中心运维人员定义的内部安全约束列表对 AI 计算得出的最佳操作进行审查。在指令从云端发送到物理数据中心后，本地控制系统就根据自己的约束集对指令进行验证。这种冗余检查可以确保系统保持在局部约束范围内，并且运维人员可以完全控制操作边界。

最重要的是，谷歌的数据中心运维人员始终控制着局面，可以随时选择退出 AI 控制模式。在这些情况下，控制系统将无缝地从 AI 控制转移到现场规则。

可以从下图了解谷歌开发的其他安全机制：

逐渐增长的节能

谷歌的原始推荐系统有运维人员进行审查和实现操作，而谷歌新的 AI 控制系统却直接自己实现了操作。考虑到安全性和可靠性问题，谷歌有目的地将系统的优化边界限制在较窄的操作体系中，这意味着在节能方面存在风险和回报之间的折衷。

尽管只有几个月的时间，这个系统已经实现了平均约 30％的持续节能，并有了进一步的预期改进。这是因为随着时间的推移，系统会因为数据越来越多而变得更好，如下图所示。随着技术的成熟，谷歌的优化边界也将得到扩展，从而实现更高效的节能。

这张图描绘了相对于历史基线的 AI 性能趋势。性能通过通用的工业冷却能效指标（kW/ton，每吨冷却对应的能量输入）来衡量。在 9 个月时间里，谷歌的 AI 控制系统性能从 12％的改进增加到大约 30％的改进。

谷歌的 AI 控制系统正在寻找更多新颖的管理冷却的方式，这些方法甚至让数据中心运维人员感到惊讶。谷歌数据中心运维人员 Dan Fuenffinger 说：“看到 AI 学会利用冬季条件并生成比普通水更冷的水，着实令人感到惊讶，这样可以降低冷却所需的能量。随着时间的推移，人工规则不会变得更好，但 AI 却可以“。

谷歌很高兴谷歌的 AI 控制系统能够安全可靠地运行，同时始终如一地实现节能。但是，数据中心只是个开始。从长远来看，谷歌认为有可能将这项技术应用到其他工业环境，并在更大规模的范围内应对气候变化。

查看英文原文： https://de ep mind.com/blog/safety-first-ai-autonomous-data-centre-cooling-and-industrial-control/

感谢陈利鑫对本文的审校。

发布

暂无评论

创作场景

谷歌首创基于云的 AI 自治系统，为数据中心自动降温

它是怎么运作的

专为安全和可靠性而设计

逐渐增长的节能

评论

怎么才能提高自己web前端技术呢？

kafka的Docker镜像使用说明(wurstmeister/kafka)

华为2023届提前批预热开始！左神的程序代码面试指南终派上用场

大数据开发课程怎么学？

物理防火墙是什么？有什么作用？

想要做好软件测试，可以先了解AST、SCA和渗透测试

看了这么多Python教程，最香的还得是……

阿里云技术专家邓青琳：云上跨可用区容灾和异地多活最佳实践

微软Azure和易观分析联合发布《企业级云原生平台驱动数字化转型》报告

用GaussDB（for Redis）存画像，推荐业务轻松降本60%

2022秋招，Java岗最全面试攻略，吃透25个技术栈Offer拿到手软

行云管家V6.5.1/2/3系列版本发布：数据库OpenAPI能力持续强化

产品动态丨Android 13 高效适配全新升级

Okaleido上线聚变Mining模式，OKA通证当下产出的唯一方式

华为被迫开源！从认知到落地SpringBoot企业级实战手册（完整版）

基于Caffe ResNet-50网络实现图片分类（仅推理）的实验复现

我写的dubbo扩展jar包如何无侵入的给别人使用

第五届数字中国建设峰会举行，每日互动发布每日治数平台DIOS创新成果

众人呼唤的 Java 单商户系统，究竟有什么过人之处？

Kyligence 入选 Gartner 2022 数据管理技术成熟度曲线报告

基于Netty，从零开发IM(四)：编码实践篇（系统优化）

中文起，Python 字体反爬实战案例，再一点

web前端开发技术学习比较靠谱

大数据课程培训和自学哪个比较适合？

敞开大门的支付宝，是商家的新掘金地吗？

兆骑科创海内外高层次创新创业人才服务平台，双创成果转化平台

CircleIndicator组件，使指示器风格更加多样化

如何把css渐变背景玩出花样来

Okaleido生态核心权益OKA，尽在聚变Mining模式

字节一面：TCP 和 UDP 可以使用同一个端口吗？

创作场景

谷歌首创基于云的 AI 自治系统，为数据中心自动降温

它是怎么运作的

专为安全和可靠性而设计

逐渐增长的节能

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载