写点什么

Uber 的合成训练数据将深度学习的速度提升了 9 倍

  • 2020-02-12
  • 本文字数:1073 字

    阅读完需:约 4 分钟

Uber的合成训练数据将深度学习的速度提升了9倍

Uber人工智能实验室开发了一种名为生成式教学网络(GTN)的算法,该算法为神经网络生成合成训练数据,使得神经网络的训练速度比使用真实数据时更快。利用这些合成数据,Uber 将其神经结构搜索(NAS)深度学习优化过程提升了 9 倍。


在 arXiv 上发表的一篇论文中,该团队描述了这个系统和一系列的实验。GTN 的动机来自神经结构搜索(NAS)问题,它训练许多不同的深度学习模型结构,并针对一组测试数据选择表现最好的一个。虽然一种典型的方法是在完整的数据集上通过多次迭代(或 epoch)训练每个模型,但这既耗时又昂贵。不过,模型可以在 GTN 的合成数据上进行训练,耗时更短,并且可以对其在真实训练数据上的真实表现进行估计;这样可以快速地对模型进行评估,缩短了搜索时间。据研究人员称:


GTN-神经结构搜索(GTN-NAS)堪比目前最先进的 NAS 方法,这些方法的表现最好,并且计算量比典型的 NAS 方法少几个数量级。


神经结构搜索是自动机器学习(AutoML)中一个活跃的研究领域。NAS 有一个缺点,它需要训练许多深度学习模型来确定哪个模型表现得最好。该研究主要侧重于高效探索搜索空间,这意味着该系统将训练更少的模型。Uber 的系统生成了一个新数据集,使得每个模型迭代训练的次数更少,这样,系统就可以在相同的时间内试验更多的模型。


通过较少的迭代训练模型存在的问题是,在非常早期的训练阶段,大多数模型的性能都很差,需要多次迭代来确定模型的真实性能。不过,研究表明,并不是所有的训练样本都这样,仔细选择输入样本可以加快训练速度。Uber 的想法是使用元学习来生成训练样本。与生成对抗网络(GAN)类似,Uber 的 GTN 会训练一个生成器神经网络,为学习者网络生成训练样本。学习者根据真实的测试数据进行评估,生成“元损失”,并用元损失的梯度更新生成器。利用这项技术,Uber 创建了一个生成器,生成用于训练计算机视觉(CV)系统识别MNIST数据集中的数字的样本。CV 系统只需 32 个训练步骤就能达到 98.9%的准确率。Uber 表示,在CIFAR10数据集上的一个类似实验中,他们使用合成数据通过 128 步就可以预测模型性能,而使用真实数据需要 1200 步,速度提高了 9 倍。


论文的共同作者 Jeff Clune 在推特上发了一张由该系统生成的合成图像数据的图片,并将其描述为“另类的、不现实的”。他还说:


在神经结构搜索中,GTN 生成的数据完全可以替代真实数据,这样可以极大地加快任何 NAS 算法的速度。到目前为止,我们只展示了随机搜索-NAS(加上一些花哨的功能),但是我们希望看到其他人尝试下其他更高级的 NAS 方法!


原文链接:


Uber’s Synthetic Training Data Speeds Up Deep Learning by 9x


2020-02-12 09:003370

评论

发布
暂无评论
发现更多内容

FlyFish2.0版本后端源码学习笔记

云智慧AIOps社区

前端 大前端 数据可视化 大屏可视化

【刷题第七天】15 三数之和

白日梦

5月月更

浅析微服务全链路灰度解决方案

阿里巴巴云原生

阿里云 微服务 云原生 灰度

Autograd解析|OneFlow学习笔记

OneFlow

人工智能 深度学习 数学原理 Autograd模块

使用 OData 实施 SAP 系统与第三方系统集成的步骤概述

汪子熙

系统集成 SAP OData 5月月更 第三方系统

【高并发】高并发环境下诡异的加锁问题(你加的锁未必安全)

冰河

并发编程 多线程 高并发 协程 异步编程

如何让你的 WordPress 网站更安全

海拥(haiyong.site)

WordPress 5月月更

java培训Nginx 快速入门

@零度

JAVA开发

druid源码学习三-继续探究DruidDataSource类init方法

Nick

Apache Druid

云原生小课堂 | 如何打造一款软硬兼施、多功能、零损耗的云原生网络方案

York

云原生 性能 智能网卡vpc 容器网络方案

前端生成PDF,让后端刮目相看

葡萄城技术团队

PDF pdf.js

答题交互功能深入研究

CRMEB

从服务端生成Excel电子表格(GcExcel + SpreadJS)

葡萄城技术团队

服务器端开发 前端表格控件 测试比较

【直播回顾】OpenHarmony知识赋能五期第四课——子系统音频解读

OpenHarmony开发者

OpenHarmony 多媒体

探讨企业知识管理的困惑

小炮

企业知识管理

增强现实(AR)技术在企业管理软件中的一个实际创新案例

汪子熙

AR SAP 虚拟现实 增强现实 5月月更

数据库连接池 -Druid 源码学习(三)

wjchenge

Druid 数据库连接池

pycharm的安装

工程师日月

5月月更

Druid 连接池源码阅读 03

石小天

你肯定听说过requests,但你知道2022年有一个比 requests 还牛的爬虫库吗?

梦想橡皮擦

5月月更

自开发 Web 应用如何使用 SAP Customer Data Cloud 实现自定义登入功能

汪子熙

用户权限 第三方登录 SAP 登录验证 5月月更

专访朱雷:昔日的游戏少年,如今的Python工匠

图灵教育

Python 程序员 图灵访谈

从服务端生成Excel电子表格(Node.js+SpreadJS)

葡萄城技术团队

SpreadJS 前端表格

CMMI研究院刚刚推出两门新认证课程

高山

培训 CMMI 确保安全 确保安防

【大数据培训】面试中数据仓库重要概念

@零度

数据仓库 大数据开发

封装格式介绍

Loken

音视频 5月月更

C语言_结构体总结

DS小龙哥

5月月更

Docker下的OpenResty三部曲之二:细说开发

程序员欣宸

Docker 5月月更

网站开发进阶(六十一)详解js中Number()、parseInt()和parseFloat()的区别

No Silver Bullet

5月月更 Number() parseInt() parseFloat()

web前端培训单元测试入门知识分享

@零度

单元测试 web前端开发

druid 源码阅读 3——DataSource的结构(变量)

张大彪

Uber的合成训练数据将深度学习的速度提升了9倍_AI&大模型_Anthony Alford_InfoQ精选文章