Uber的合成训练数据将深度学习的速度提升了9倍_AI&大模型_Anthony Alford_InfoQ精选文章

Uber的合成训练数据将深度学习的速度提升了9倍

Uber人工智能实验室开发了一种名为生成式教学网络（GTN）的算法，该算法为神经网络生成合成训练数据，使得神经网络的训练速度比使用真实数据时更快。利用这些合成数据，Uber 将其神经结构搜索（NAS）深度学习优化过程提升了 9 倍。

在 arXiv 上发表的一篇论文中，该团队描述了这个系统和一系列的实验。GTN 的动机来自神经结构搜索（NAS）问题，它训练许多不同的深度学习模型结构，并针对一组测试数据选择表现最好的一个。虽然一种典型的方法是在完整的数据集上通过多次迭代（或 epoch）训练每个模型，但这既耗时又昂贵。不过，模型可以在 GTN 的合成数据上进行训练，耗时更短，并且可以对其在真实训练数据上的真实表现进行估计；这样可以快速地对模型进行评估，缩短了搜索时间。据研究人员称：

GTN-神经结构搜索（GTN-NAS）堪比目前最先进的 NAS 方法，这些方法的表现最好，并且计算量比典型的 NAS 方法少几个数量级。

神经结构搜索是自动机器学习（AutoML）中一个活跃的研究领域。NAS 有一个缺点，它需要训练许多深度学习模型来确定哪个模型表现得最好。该研究主要侧重于高效探索搜索空间，这意味着该系统将训练更少的模型。Uber 的系统生成了一个新数据集，使得每个模型迭代训练的次数更少，这样，系统就可以在相同的时间内试验更多的模型。

通过较少的迭代训练模型存在的问题是，在非常早期的训练阶段，大多数模型的性能都很差，需要多次迭代来确定模型的真实性能。不过，研究表明，并不是所有的训练样本都这样，仔细选择输入样本可以加快训练速度。Uber 的想法是使用元学习来生成训练样本。与生成对抗网络（GAN）类似，Uber 的 GTN 会训练一个生成器神经网络，为学习者网络生成训练样本。学习者根据真实的测试数据进行评估，生成“元损失”，并用元损失的梯度更新生成器。利用这项技术，Uber 创建了一个生成器，生成用于训练计算机视觉（CV）系统识别MNIST数据集中的数字的样本。CV 系统只需 32 个训练步骤就能达到 98.9%的准确率。Uber 表示，在CIFAR10数据集上的一个类似实验中，他们使用合成数据通过 128 步就可以预测模型性能，而使用真实数据需要 1200 步，速度提高了 9 倍。

论文的共同作者 Jeff Clune 在推特上发了一张由该系统生成的合成图像数据的图片，并将其描述为“另类的、不现实的”。他还说：

在神经结构搜索中，GTN 生成的数据完全可以替代真实数据，这样可以极大地加快任何 NAS 算法的速度。到目前为止，我们只展示了随机搜索-NAS（加上一些花哨的功能），但是我们希望看到其他人尝试下其他更高级的 NAS 方法！

原文链接：

Uber’s Synthetic Training Data Speeds Up Deep Learning by 9x

评论

发布

暂无评论

FlyFish2.0版本后端源码学习笔记

云智慧AIOps社区

前端大前端数据可视化大屏可视化

【刷题第七天】15 三数之和

浅析微服务全链路灰度解决方案

阿里巴巴云原生

阿里云微服务云原生灰度

Autograd解析｜OneFlow学习笔记

人工智能深度学习数学原理 Autograd模块

使用 OData 实施 SAP 系统与第三方系统集成的步骤概述

系统集成 SAP OData 5月月更第三方系统

【高并发】高并发环境下诡异的加锁问题（你加的锁未必安全）

并发编程多线程高并发协程异步编程

如何让你的 WordPress 网站更安全

海拥(haiyong.site)

WordPress 5月月更

java培训Nginx 快速入门

druid源码学习三-继续探究DruidDataSource类init方法

云原生小课堂 | 如何打造一款软硬兼施、多功能、零损耗的云原生网络方案

云原生性能智能网卡vpc 容器网络方案

前端生成PDF，让后端刮目相看

葡萄城技术团队

答题交互功能深入研究

从服务端生成Excel电子表格（GcExcel + SpreadJS）

葡萄城技术团队

服务器端开发前端表格控件测试比较

【直播回顾】OpenHarmony知识赋能五期第四课——子系统音频解读

OpenHarmony开发者

OpenHarmony 多媒体

探讨企业知识管理的困惑

企业知识管理

增强现实(AR)技术在企业管理软件中的一个实际创新案例

AR SAP 虚拟现实增强现实 5月月更

数据库连接池 -Druid 源码学习（三）

Druid 数据库连接池

pycharm的安装

工程师日月

Druid 连接池源码阅读 03

你肯定听说过requests，但你知道2022年有一个比 requests 还牛的爬虫库吗？

梦想橡皮擦

自开发 Web 应用如何使用 SAP Customer Data Cloud 实现自定义登入功能

用户权限第三方登录 SAP 登录验证 5月月更

专访朱雷：昔日的游戏少年，如今的Python工匠

Python 程序员图灵访谈

从服务端生成Excel电子表格（Node.js+SpreadJS）

葡萄城技术团队

SpreadJS 前端表格

CMMI研究院刚刚推出两门新认证课程

培训 CMMI 确保安全确保安防

【大数据培训】面试中数据仓库重要概念

数据仓库大数据开发

封装格式介绍

音视频 5月月更

C语言_结构体总结

Docker下的OpenResty三部曲之二：细说开发

程序员欣宸

Docker 5月月更

网站开发进阶（六十一）详解js中Number()、parseInt()和parseFloat()的区别

No Silver Bullet

5月月更 Number() parseInt() parseFloat()

web前端培训单元测试入门知识分享

单元测试 web前端开发

druid 源码阅读 3——DataSource的结构（变量）