速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

DeepMind 发布 JEST 算法,AI 模型训练耗能降低十倍

  • 2024-07-09
    北京
  • 本文字数:1052 字

    阅读完需:约 3 分钟

DeepMind发布JEST算法,AI模型训练耗能降低十倍

近日,谷歌的人工智能研究实验室 DeepMind 发表了关于训练 AI 模型的新研究——多模态对比学习与联合示例选择(JEST)。


JEST 算法可以将训练速度和能源效率提高一个数量级。DeepMind 声称,“我们的方法超越了最先进的模型,迭代次数减少了 13 倍,计算量减少了 10 倍。”


论文链接:

https://arxiv.org/pdf/2406.17711


有网友激动地表示:“我没想到它来得这么快。对于模型来说,选择训练数据的能力是很强大的,因为这可以使得训练变得十分容易。你不需要再去猜测什么是高质量的训练数据,因为你有一个专门学习它的模型。”


JEST 算法以一种简单的方式打破了传统的 AI 模型训练技术。典型的训练方法侧重于对单个数据点的学习和训练,而 JEST 则是对整个批次进行训练,优化了数据的整体学习效果。


多模态对比学习能够直接揭示数据之间的交互,通过选择高质量的子批次显著提高训练效率。


  • 多模态数据交互:利用不同模态(图像、文本等)间的相互作用增强数据的表征力。例如,将图像中的对象与其描述文本相匹配,增强模型的理解。


  • 对比目标:最大化相同概念的不同模态表示(如图像和对应文本)之间的相似度,同时最小化不相关模态之间的相似度。通过 sigmoid-contrastive loss 等对比损失函数实现。


  • 学习效率的提升:多模态学习方法使 JEST 算法从数据交互中学习到更复杂的数据表示,提高了学习效率和模型性能。


联合示例选择通过评估数据子批次的整体可学习性,从大批次中选择出最有学习价值的子批次。


  • 可学习性评分:结合当前模型的损失和预训练模型的损失,优先选择当前模型尚未学会但预训练模型已学会的数据。


  • 评分函数:结合预训练模型的易学性评分和当前学习模型的难学性评分,得到综合的可学习性评分。



但是,这个系统完全依赖于其训练数据的质量,如果没有高质量的数据集,引导技术就会分崩离析。对于业余爱好者或者业余 AI 开发者来说,JEST 比其他方法要更难以掌控。


近年来,人工智能技术迅猛发展,大规模语言模型(LLM)如 ChatGPT 的应用日益广泛。然而,这些模型的训练和运行消耗了大量能源。研究称,微软用水量从 2021 年到 22 年飙升了 34%,ChatGPT 每处理 5-50 个提示就会消耗接近半升水。在这样的背景下,JEST 技术的出现显得尤为重要。


参考链接:

https://www.tomshardware.com/tech-industry/artificial-intelligence/google-claims-new-ai-training-tech-is-13-times-faster-and-10-times-more-power-efficient-deepminds-new-jest-optimizes-training-data-for-massive-gains

https://the-decoder.com/google-deepminds-jest-speeds-up-ai-training-by-13x-while-slashing-computing-needs/

2024-07-09 10:403666

评论

发布
暂无评论
发现更多内容

线上服务 CPU 100% ?一键定位 so easy!

Java小咖秀

性能 cpu 服务器 负载 紧急问题

公有云成本节省神器!京东云共享带宽包正式上线

京东科技开发者

公有云 带宽

浪潮签约“数字基建”合作伙伴共促工业互联网创新发展

工业互联网

从石器时代到田园牧歌:如何对 API 统一建模

李宇飞

API

更简的并发代码,更强的并发控制

万俊峰Kevin

并发 go-zero Go 语言

「免费开源」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之业务数据增删改查(七)

crudapi

Vue API crud crudapi quasar

亿网嘉元是做什么的?

飞亚科技

Python变量作用域与LEGB规则

大奎

语法 Python Monad 作用域

模块二作业

c

架构实战营

「 最佳内容公布」—— InfoQ 写作平台【 1 周年盛典 】

InfoQ写作社区官方

1 周年盛典 热门活动

划重点丨详解Java流程控制语句知识点

华为云开发者联盟

Java 流程控制语句

SumSwap在市场上的强大突破是否会成为DEX领域最大的黑马?

币圈资讯

2D+1D | vivo官网Web 3D应用开发与实战

vivo互联网技术

大前端 WebGL 3D数据可视化 Draco 3D

云小课 | 不了解EIP带宽计费规则?看这里!

华为云开发者联盟

带宽 弹性公网IP 带宽变更 计费模式

最详细的基于 Prometheus 的 Azure 指标监控

耳东@Erdong

azure Prometheus 4月日更

Android中的图像格式

如浴春风

android 音视频 安卓 签约计划

「 优秀主题征文名单公布 」—— InfoQ 写作平台【 1 周年盛典 】

InfoQ写作社区官方

1 周年盛典 热门活动

Cloudreve 自建云盘实践,我说了没人能限得了我的容量和速度!

小傅哥

Java 小傅哥 Cloudreve 自建云盘

数据分析与数据增长核心逻辑杂谈

小飞象@木木自由

数据分析

智慧公安情报综合研判平台开发,助推公安信息化发展

13828808769

智慧城市

一文带你剖析LiteOS互斥锁Mutex源代码

华为云开发者联盟

mutex LiteOS 互斥锁 互斥锁结构体

创建索引,这些知识应该了解

Simon

MySQL 索引

派出所重点人员管控系统开发,建设智慧警务

13828808769

智慧组工

Linux rmdir 命令

一个大红包

linux命令 4月日更

对前端趋势的一些理解

葱小白

大前端

WebRTC基础知识详解

IT酷盖

签约计划

华为帐号服务学习笔记(三):10分钟完成Authorization Code模式客户端Demo开发

Coding狙击

android HMS

区块链电子合同技术方案,区块链电子合同存证

13828808769

区块链 区块链+

Spark原理与实战之部署模式与运行机制

小舰

spark Spark调优 4月日更

MySQL多表查询详解

若尘

MySQL 查询

AI数学基础之:确定图灵机和非确定图灵机

程序那些事

人工智能 AI 程序那些事 图灵机

DeepMind发布JEST算法,AI模型训练耗能降低十倍_AI&大模型_赵明华_InfoQ精选文章