把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

Uber 的合成训练数据将深度学习的速度提升了 9 倍

  • 2020-02-12
  • 本文字数:1073 字

    阅读完需:约 4 分钟

Uber的合成训练数据将深度学习的速度提升了9倍

Uber人工智能实验室开发了一种名为生成式教学网络(GTN)的算法,该算法为神经网络生成合成训练数据,使得神经网络的训练速度比使用真实数据时更快。利用这些合成数据,Uber 将其神经结构搜索(NAS)深度学习优化过程提升了 9 倍。


在 arXiv 上发表的一篇论文中,该团队描述了这个系统和一系列的实验。GTN 的动机来自神经结构搜索(NAS)问题,它训练许多不同的深度学习模型结构,并针对一组测试数据选择表现最好的一个。虽然一种典型的方法是在完整的数据集上通过多次迭代(或 epoch)训练每个模型,但这既耗时又昂贵。不过,模型可以在 GTN 的合成数据上进行训练,耗时更短,并且可以对其在真实训练数据上的真实表现进行估计;这样可以快速地对模型进行评估,缩短了搜索时间。据研究人员称:


GTN-神经结构搜索(GTN-NAS)堪比目前最先进的 NAS 方法,这些方法的表现最好,并且计算量比典型的 NAS 方法少几个数量级。


神经结构搜索是自动机器学习(AutoML)中一个活跃的研究领域。NAS 有一个缺点,它需要训练许多深度学习模型来确定哪个模型表现得最好。该研究主要侧重于高效探索搜索空间,这意味着该系统将训练更少的模型。Uber 的系统生成了一个新数据集,使得每个模型迭代训练的次数更少,这样,系统就可以在相同的时间内试验更多的模型。


通过较少的迭代训练模型存在的问题是,在非常早期的训练阶段,大多数模型的性能都很差,需要多次迭代来确定模型的真实性能。不过,研究表明,并不是所有的训练样本都这样,仔细选择输入样本可以加快训练速度。Uber 的想法是使用元学习来生成训练样本。与生成对抗网络(GAN)类似,Uber 的 GTN 会训练一个生成器神经网络,为学习者网络生成训练样本。学习者根据真实的测试数据进行评估,生成“元损失”,并用元损失的梯度更新生成器。利用这项技术,Uber 创建了一个生成器,生成用于训练计算机视觉(CV)系统识别MNIST数据集中的数字的样本。CV 系统只需 32 个训练步骤就能达到 98.9%的准确率。Uber 表示,在CIFAR10数据集上的一个类似实验中,他们使用合成数据通过 128 步就可以预测模型性能,而使用真实数据需要 1200 步,速度提高了 9 倍。


论文的共同作者 Jeff Clune 在推特上发了一张由该系统生成的合成图像数据的图片,并将其描述为“另类的、不现实的”。他还说:


在神经结构搜索中,GTN 生成的数据完全可以替代真实数据,这样可以极大地加快任何 NAS 算法的速度。到目前为止,我们只展示了随机搜索-NAS(加上一些花哨的功能),但是我们希望看到其他人尝试下其他更高级的 NAS 方法!


原文链接:


Uber’s Synthetic Training Data Speeds Up Deep Learning by 9x


2020-02-12 09:003678

评论

发布
暂无评论
发现更多内容

Apache Dolphin Scheduler 3.0.1 发布,对核心及UI相关进行优化

白鲸开源

海豚调度 Apache DolphinScheduler 任务调度 版本发布 新版本/特性发布

React源码分析6-hooks源码

goClient1992

React

React核心技术浅析

夏天的味道123

React

激活工具带毒,静默安装360、2345系列软件

火绒安全

安全 下载器 病毒 恶意软件

2022年9月国产数据库大事记-墨天轮

墨天轮

数据库 opengauss TiDB 国产数据库 KingBase

leetcode 236. Lowest Common Ancestor of a Binary Tree 二叉树的最近公共祖先(中等)

okokabcd

LeetCode 数据结构与算法

25分钟了解php?php基础

贤鱼很忙

php 10月月更

DAPP系统开发Web3.0技术实现

薇電13242772558

dapp web3

SPL工业智能:原料与产品的拟合

石臻臻的杂货铺

工业智能体 SPL 10月月更

ReactDOM.render在react源码中执行之后发生了什么?

flyzz177

React

【等保小知识】等保测评整体测评是什么意思?

行云管家

等保 等级保护 等保测评 等保2.0

“超越融合 异筑信创”,AntDB数据库携手超云等生态伙伴共建信创大生态

亚信AntDB数据库

AntDB AntDB数据库 企业号十月PK榜 企业号十月 PK 榜

java培训学习怎么选择培训机构

小谷哥

Kubernetes 认证管理员(CKA)必过心得

HummerCloud

云原生 CKA #k8s Kubetnetes kubernetes 运维

前端开发培训机构怎么学

小谷哥

React生命周期深度完全解读

夏天的味道123

React

对在前端培训初学者的几点建议

小谷哥

java培训学习后能高薪就业吗?

小谷哥

浅谈Vue3组件通信

CoderBin

Vue 前端 10月月更

Zebec地平线节点运营计划,Web3流支付赛道或多一条全新公链

鳄鱼视界

我对软件工程的理解

老张

软件工程 质量保障

【开发者说】一课表,你的智能课业管理工具

HarmonyOS开发者

HarmonyOS

公共数据开放落地细则探讨,企业如何合规取用?

Jessica@数牍

安全隐私 公共数据开放 安全合规

广州云管平台有哪些?联系方式是什么?

行云管家

云计算 企业上云 云管平台 广州

VoneBaaS团队成功入围第二届中国可信区块链安全攻防大赛决赛

旺链科技

区块链 产业区块链 VoneBaaS BaaS平台

React-diff原理及应用

xiaofeng

React

参与中国信通院低代码&无代码市场调研问卷,浅抽超丰富奖池!

云智慧AIOps社区

大前端 低代码 数据可视化 无代码 低代码报告

一文详解 | 低代码发展的 “背后推手”

飞算JavaAI开发助手

React源码分析5-commit

goClient1992

React

React Context源码是怎么实现的呢

flyzz177

React

深入分析React-Scheduler原理

xiaofeng

React

Uber的合成训练数据将深度学习的速度提升了9倍_AI&大模型_Anthony Alford_InfoQ精选文章