MIT CSAIL彩票假想：大幅缩小神经网络规模但不牺牲预测精度，将对迁移学习产生影响_AI&大模型_KYLE WIGGERS

大模型“四虎”出山，亮相 4 月 QCon 北京。了解详情 



 写点什么

MIT CSAIL彩票假想：大幅缩小神经网络规模但不牺牲预测精度，将对迁移学习产生影响

近日，美国麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）发表了一篇名为《彩票假想：寻找稀疏、可训练的神经网络》（The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks）的论文，详细解析了如何在保证精准度不打折扣的前提下缩小神经网络规模。经试验，这种方法最高可以将模型大小缩小 10 倍，甚至训练速度提高 3.5 倍，预测精度提高 3.5%。

深度神经网络是一种仿生物神经元的数学函数层，作为通用类型的 AI 架构，它们能够执行从自然语言处理到计算机视觉的各类任务。但这并不意味着它们无所不能。深度神经网络通常需要非常庞大和合适的大型语料库，即使是用最昂贵的专用硬件，也需要数天才能进行训练。

但这种情况可能将有所改变。麻省理工学院计算机科学与人工智能实验室（CSAIL）的科学家在一项新研究《彩票假想：寻找稀疏、可训练的神经网络”》中表示，深度神经网络包含的子网络可以缩小 10 倍，同时训练之后预测精度保持同等水平，甚至在某些情况下比原始网络速度更快。

这项成果将在新奥尔良举行的国际学习代表大会（ICLR）上发表，从大约 1,600 份提交论文中脱颖而出，被评为该会议两篇最佳论文之一。

“首先，如果不想初始网络那么大，为什么不能在一开始就创建一个大小适中的网络呢？”博士生和论文合著者 Jonathan Frankle 在一份声明中说。“通过神经网络，你可以对这个庞大的结构进行随机初始化，在经过对大量数据进行训练之后，它神奇地起作用了。这种大型结构就像你买了一大包彩票，但其中只有少量门票实际上会让你发财。然而，我们仍然需要一种技术，在不知道中奖号码之前找到中奖的幸运儿。“

上图：在神经网络中查找子网图片来源：麻省理工学院 CSAIL

规模缩小 10 倍，速度提高 3.5 倍，精度提高 3.5%

这里，我们将彩票假设应用于 CIFAR10 上的卷积网络，增加了学习问题的复杂性和网络的规模。我们考虑使用图 2 中的 Conv-2，Conv-4 和 Conv-6 架构，它们是 VGG 家族的缩小变体（Simonyan＆Zisserman，2014）。网络有两个、四个或六个卷积层，后面是两个完全连接的层；每两个卷积层发生最大池化。这些网络范围广泛，包括将近到完全连接到传统卷积网络的类型，Conv-2 中卷积层的参数不到 1％，Conv-6.3 中的参数近三分之二。

寻找中奖彩票。上图中的实线表示来自每层修剪速率的 Conv-2（蓝色），Conv-4（橙色）和 Conv-6（绿色）的迭代彩票实验。

Lenet：随着网络被修剪，与原始网络相比，它学得更快，测试准确度也提高了。在这种情况下，结果更加明显。中奖彩票验证损失率达到最低，Conv-2 快 3.5 倍（Pm = 8.8％），Conv-4 快 3.5 倍（Pm = 9.2％），Conv-6 为 2.5x（Pm = 15.1％）。在精度度上，Conv-2 最高提高了 3.4%（Pm = 4.6％），Conv-4 提高 3.5%（Pm = 11.1％），Conv-6 提高 3.3%（Pm = 26.4％）。当 Pm> 2％时，所有三个网络都保持在其原始平均测试精度之上。

研究人员使用的方法涉及消除功能（或神经元）之间不必要的连接，使其适应低功率设备，这一过程通常称为修剪。（他们特别选择了具有最低“权重”的连接，这表明它们的重要性最低。）接下来，他们在没有修剪连接的情况下训练网络并重置权重，在修剪其他连接后，他们确定了可以在不影响模型预测能力的情况下删除多少连接。

在不同条件、不同网络上重复该过程数万次之后，报告显示他们的 AI 模型始终比其完全连接的母网络的规模小 10％到 20％。

“令人惊讶的是，重新设置一个表现良好的网络通常会带来更好的结果，”共同作者兼助理教授 Michael Carbin 说。“这表明，第一次的成果都不是最完美的，模型学会自我改进的空间还很大。”

Carbin 和 Frankle 指出，他们只考虑以较小数据集为中心和以视觉为中心的分类任务，未来，他们将探讨为什么某些子网特别擅长学习以及快速发现这些子网的方法。另外，他们认为这个结果可能对迁移学习产生影响，迁移学习技术可以训练针对某一任务的网络对另其他任务同样适用。

参考链接：https://arxiv.org/pdf/1803.03635.pdf

https://venturebeat.com/2019/05/06/mit-csail-details-technique-that-shrinks-the-size-of-neural-networks-without-compromising-accuracy/

发布

暂无评论

创作场景

MIT CSAIL 彩票假想：大幅缩小神经网络规模但不牺牲预测精度，将对迁移学习产生影响

规模缩小 10 倍，速度提高 3.5 倍，精度提高 3.5%

评论

怎么购买GPT4o？GPT4o买不了怎么办？GPT4o订阅银行卡教程

生成式推荐系统与京东联盟广告-综述与应用

妙用OSGraph：发掘GitHub知识图谱上的开源故事

实现全国算力互联互通，我们是认真的！

云消息队列 ApsaraMQ 成本治理实践（文末附好礼）

又一个小伙伴在深圳上车安家～

市值风云APP装机数百万，借助NineData实现数据高效流通

开源数据库生态遇新变数，天翼云TeleDB提供企业数据管理更优解！

携手知名律所，合合信息旗下名片全能王打造数字化名片“新范式”

青椒云如何通过云桌面实现移动图形工作站

解决DevEco Studio中的“Cannot find module”编译错误问题

关于web自动化过程中滑块解锁问题以及页面滚动的问题的研究

数字先锋| SaaS服务“拎包入住”？央企数字化转型体验感拉满！

大厂扎堆入驻鸿蒙，中小应用厂商怎么跟？

如何在鸿蒙系统中设置Image的按压态

性能分析: 快速定位SQL问题

孤勇者80岁老教授40年打造国产数据库第一股，达梦开盘暴涨260%

疫情之后规模最大！武汉站Meetup，腾讯云与Elastic共绘ES在AI时代搜索技术新蓝图！

解决TaskPool中线程管理和XML解析问题的指南

如何画一个系统的设计图

浅析Spring中Async注解底层异步线程池原理

移动图形工作站有哪些价格实惠的推荐？

五连冠！天翼云稳居中国专属云服务市场榜首！

技术解读华为云CCE Autopilot，k8s集群托管免运维

闲鱼商品详情API接口：获取与应用实战指南

如何使用华为NEXT模拟器进行应用开发

面试官：谈谈对SpringAI的理解？

OceanBase 金融项目优化案例

从打点平台谈打点治理

IM跨平台技术学习(十一)：环信基于Electron打包Web IM桌面端的技术实践

鸿蒙系统开发如何实现跨平台功能？

创作场景

MIT CSAIL 彩票假想：大幅缩小神经网络规模但不牺牲预测精度，将对迁移学习产生影响

规模缩小 10 倍，速度提高 3.5 倍，精度提高 3.5%

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载