写点什么

DeepMind 发布 JEST 算法,AI 模型训练耗能降低十倍

  • 2024-07-09
    北京
  • 本文字数:1052 字

    阅读完需:约 3 分钟

DeepMind发布JEST算法,AI模型训练耗能降低十倍

近日,谷歌的人工智能研究实验室 DeepMind 发表了关于训练 AI 模型的新研究——多模态对比学习与联合示例选择(JEST)。


JEST 算法可以将训练速度和能源效率提高一个数量级。DeepMind 声称,“我们的方法超越了最先进的模型,迭代次数减少了 13 倍,计算量减少了 10 倍。”


论文链接:

https://arxiv.org/pdf/2406.17711


有网友激动地表示:“我没想到它来得这么快。对于模型来说,选择训练数据的能力是很强大的,因为这可以使得训练变得十分容易。你不需要再去猜测什么是高质量的训练数据,因为你有一个专门学习它的模型。”


JEST 算法以一种简单的方式打破了传统的 AI 模型训练技术。典型的训练方法侧重于对单个数据点的学习和训练,而 JEST 则是对整个批次进行训练,优化了数据的整体学习效果。


多模态对比学习能够直接揭示数据之间的交互,通过选择高质量的子批次显著提高训练效率。


  • 多模态数据交互:利用不同模态(图像、文本等)间的相互作用增强数据的表征力。例如,将图像中的对象与其描述文本相匹配,增强模型的理解。


  • 对比目标:最大化相同概念的不同模态表示(如图像和对应文本)之间的相似度,同时最小化不相关模态之间的相似度。通过 sigmoid-contrastive loss 等对比损失函数实现。


  • 学习效率的提升:多模态学习方法使 JEST 算法从数据交互中学习到更复杂的数据表示,提高了学习效率和模型性能。


联合示例选择通过评估数据子批次的整体可学习性,从大批次中选择出最有学习价值的子批次。


  • 可学习性评分:结合当前模型的损失和预训练模型的损失,优先选择当前模型尚未学会但预训练模型已学会的数据。


  • 评分函数:结合预训练模型的易学性评分和当前学习模型的难学性评分,得到综合的可学习性评分。



但是,这个系统完全依赖于其训练数据的质量,如果没有高质量的数据集,引导技术就会分崩离析。对于业余爱好者或者业余 AI 开发者来说,JEST 比其他方法要更难以掌控。


近年来,人工智能技术迅猛发展,大规模语言模型(LLM)如 ChatGPT 的应用日益广泛。然而,这些模型的训练和运行消耗了大量能源。研究称,微软用水量从 2021 年到 22 年飙升了 34%,ChatGPT 每处理 5-50 个提示就会消耗接近半升水。在这样的背景下,JEST 技术的出现显得尤为重要。


参考链接:

https://www.tomshardware.com/tech-industry/artificial-intelligence/google-claims-new-ai-training-tech-is-13-times-faster-and-10-times-more-power-efficient-deepminds-new-jest-optimizes-training-data-for-massive-gains

https://the-decoder.com/google-deepminds-jest-speeds-up-ai-training-by-13x-while-slashing-computing-needs/

2024-07-09 10:403794

评论

发布
暂无评论
发现更多内容

每日一题 | LeetCode 1 两数之和

武师叔

Python 算法 JAV A Leet Code 6月月更

企业网站如何快速被搜索引擎收录

源字节1号

面试官:执行一条 SQL 语句,期间会发生什么?

Java全栈架构师

Java MySQL 数据库 程序员 面试

跨平台方案的比较

Geek_99967b

小程序 小程序容器

leetcode 51. N-Queens N 皇后(困难)

okokabcd

LeetCode 搜索 算法与数据结构

华为云AppCube带你5分钟开发微信小程序

乌龟哥哥

6月月更

红利、辛苦钱、利润和工资【读书笔记】

FunTester

FinClip2022重要功能汇总

Speedoooo

微信小程序 APP开发 小程序容器 微信登录

this和super的用法与区别

写代码两年半

继承 super javase this 6月月更

答应我:监听日志文件变化的这三种方法你一定要会!推荐第三种!

Java全栈架构师

Java 程序员 面试 IDEA 代码人生

scp 高效操作之避免 zsh 路径展开

Nick

Linux zsh 6月月更 高效操作 scp

阿里6月终于有HC了!耗时两月足足面试13轮成功入职阿里!拿到32*15Offer

Java全栈架构师

Java spring 程序员 面试 程序人生

Hexo + Github从零搭建个人博客

梁歪歪 ♚

Hexo 博客搭建

5分钟了解SDN控制平面

穿过生命散发芬芳

SDN网络 6月月更

使用IDE并不是懒癌表现

Geek_99967b

小程序 小程序容器

InterpreterPattern-解释器模式

梁歪歪 ♚

设计模式

在线文本右边批量删除字符工具

入门小站

工具

Java设计模式学习总结

梁歪歪 ♚

设计模式

互联网电商项目天花板,从立项到交付快速落地,真正帮你解决大型互联网项目经验欠缺的短板

Java全栈架构师

程序员 面试 项目 架构设计 程序员进阶

运维服务体系构建

阿泽🧸

运维体系 6月月更

Flutter的整体架构

Geek_99967b

小程序 小程序容器

LabVIEW控制Arduino采集热电偶温度数值(进阶篇—2)

不脱发的程序猿

单片机 LabVIEW Arduino VISA 采集热电偶温度数值

Disruptor 高性能堆内队列 系列一

Nick

Java Disruptor 队列 高性能 6月月更

InfoQ 极客传媒 15 周年庆征文|聊聊 Kafka:Kafka 如何保证一致性

老周聊架构

kafka 架构 云原生 6月月更 InfoQ极客传媒15周年庆

过去一周区块链热点回顾|BAYC项目具有被无限铸币的风险

区块链前沿News

Hoo

Flutter 利用 Redux 中间件完成购物清单离线存储

岛上码农

flutter ios 前端 安卓开发 6月月更

PC端实现运营小程序,是否能再创PC时代又一春!

Geek_99967b

小程序 小程序转app

让开发效率飞速提升的跨端开发神器

Geek_99967b

小程序 小程序容器

linux中删除特殊文件

入门小站

Linux

大家的 Hexo 博客都还好吗?

jrwng

Hexo

深入浅出-如何安全的传输密码

梁歪歪 ♚

加密

DeepMind发布JEST算法,AI模型训练耗能降低十倍_AI&大模型_赵明华_InfoQ精选文章