写点什么

DeepMind 发布 JEST 算法,AI 模型训练耗能降低十倍

  • 2024-07-09
    北京
  • 本文字数:1052 字

    阅读完需:约 3 分钟

DeepMind发布JEST算法,AI模型训练耗能降低十倍

近日,谷歌的人工智能研究实验室 DeepMind 发表了关于训练 AI 模型的新研究——多模态对比学习与联合示例选择(JEST)。


JEST 算法可以将训练速度和能源效率提高一个数量级。DeepMind 声称,“我们的方法超越了最先进的模型,迭代次数减少了 13 倍,计算量减少了 10 倍。”


论文链接:

https://arxiv.org/pdf/2406.17711


有网友激动地表示:“我没想到它来得这么快。对于模型来说,选择训练数据的能力是很强大的,因为这可以使得训练变得十分容易。你不需要再去猜测什么是高质量的训练数据,因为你有一个专门学习它的模型。”


JEST 算法以一种简单的方式打破了传统的 AI 模型训练技术。典型的训练方法侧重于对单个数据点的学习和训练,而 JEST 则是对整个批次进行训练,优化了数据的整体学习效果。


多模态对比学习能够直接揭示数据之间的交互,通过选择高质量的子批次显著提高训练效率。


  • 多模态数据交互:利用不同模态(图像、文本等)间的相互作用增强数据的表征力。例如,将图像中的对象与其描述文本相匹配,增强模型的理解。


  • 对比目标:最大化相同概念的不同模态表示(如图像和对应文本)之间的相似度,同时最小化不相关模态之间的相似度。通过 sigmoid-contrastive loss 等对比损失函数实现。


  • 学习效率的提升:多模态学习方法使 JEST 算法从数据交互中学习到更复杂的数据表示,提高了学习效率和模型性能。


联合示例选择通过评估数据子批次的整体可学习性,从大批次中选择出最有学习价值的子批次。


  • 可学习性评分:结合当前模型的损失和预训练模型的损失,优先选择当前模型尚未学会但预训练模型已学会的数据。


  • 评分函数:结合预训练模型的易学性评分和当前学习模型的难学性评分,得到综合的可学习性评分。



但是,这个系统完全依赖于其训练数据的质量,如果没有高质量的数据集,引导技术就会分崩离析。对于业余爱好者或者业余 AI 开发者来说,JEST 比其他方法要更难以掌控。


近年来,人工智能技术迅猛发展,大规模语言模型(LLM)如 ChatGPT 的应用日益广泛。然而,这些模型的训练和运行消耗了大量能源。研究称,微软用水量从 2021 年到 22 年飙升了 34%,ChatGPT 每处理 5-50 个提示就会消耗接近半升水。在这样的背景下,JEST 技术的出现显得尤为重要。


参考链接:

https://www.tomshardware.com/tech-industry/artificial-intelligence/google-claims-new-ai-training-tech-is-13-times-faster-and-10-times-more-power-efficient-deepminds-new-jest-optimizes-training-data-for-massive-gains

https://the-decoder.com/google-deepminds-jest-speeds-up-ai-training-by-13x-while-slashing-computing-needs/

2024-07-09 10:403733

评论

发布
暂无评论
发现更多内容

产品介绍二维码:图文视频集于一码,提升产品宣传效率!

草料二维码

鲲鹏生态繁荣的“幕后推手”:虹信软件扛起“智改数转”大旗

Alter

如何在服务器端自动ban掉扫描ssh的IP

京东科技开发者

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

阿里云大数据AI技术

人工智能 阿里云 EMNLP

Microsoft Office LTSC 2021 for Mac(office全家桶)v16.80中文正式版

理理

Navicat for MySQL Mac(数据库管理开发工具)汉化版

理理

急救管理系统

深圳亥时科技

Macs Fan Control Pro 2025—— 解锁 Mac 极致性能,从散热开始

理理

Charles for Mac(HTTP协议抓包工具)4.6.7注册激活版

理理

IT服务台的5个基本参与度指标

ServiceDesk_Plus

IT服务管理 IT服务台 IT服务台指标

京东物流-智能运输调度系统方案 荣获IF、红点国际设计大奖

京东科技开发者

苹果电脑壁纸素材分享:Dynamic Wallpaper 臻选4K高清壁纸

理理

2024 年互联网大厂 Java 工程师高级面试八股文汇总(1120 道题目附解析)

采菊东篱下

java面试

SketchUp Pro 2024 (草图大师2024)中文破解版 mac&win

理理

【JIT/极态云】技术文档--消息服务

武汉万云网络科技有限公司

前端 后端 低代码

OpenAI 发布了新的事实性基准——SimpleQA

吴脑的键客

人工智能 openai

社交软件红包技术解密(三):微信摇一摇红包雨背后的技术细节

JackJiang

即时通讯;IM;网络编程

JProfiler mac破解版附JProfiler注册码 Java开发分析

理理

Lightroom Classic 2024(LrC2024)中文直装版

理理

浪潮信息MLPerfTM Storage v1.0打榜成绩优异,AI时代存储从“能用”到“好用”

Xue Liang

大模型

xmind思维导图 mac破解版 ,简单好用,激发创意灵感

Rose

并发编程/6种线程池设计图/1大线程池标准设计与执行规范/2种线程池管理设计(全面篇)

肖哥弹架构

Java 并发编程 高并发

面试官:Redis中大Key怎么删除?

王中阳Go

php Go 面试 后端

Termius:跨平台的SSH、Telnet和SFTP客户端

理理

Need 3 WiFi Radios? Meet the Game-Changing 3-in-1 Solution!

wallyslilly

QCN9074 QCN9024

HyperWorks练习:使用Batch Mesher 批量划分网格

智造软件

仿真软件 CAE软件 altair Hypermesh hyperworks

IDA Professional for mac 反汇编逆向神器

理理

Meta AR 眼镜团队前负责人加入 OpenAI;visionOS 2.2 Beta 引入超宽屏投屏模式丨 RTE 开发者日报

声网

2024 最新版 Java 八股文汇总(附 1100 道面试题及答案详解)

架构师之道

java面试

数据科学在京东物流关键角色与前沿应用探索

京东科技开发者

DeepMind发布JEST算法,AI模型训练耗能降低十倍_AI&大模型_赵明华_InfoQ精选文章