写点什么

为什么大型机器学习模型必须缩小 ?

  • 2021-05-12
  • 本文字数:1387 字

    阅读完需:约 5 分钟

为什么大型机器学习模型必须缩小 ?

更大的规模不一定更适合机器学习。但是,随着研究人员相互竞争追求最先进的基准,深度学习模型和训练它们的数据集不断扩展。不管它们如何突破,更大的模型都会对预算和环境产生严重的影响。


比如 GPT-3,一个在去年夏天推出的大受欢迎的自然语言处理模型,据说花了1200 万美元用于训练。更有甚者,马萨诸塞大学阿默斯特分校(UMass Amherst)的研究人员发现,训练大型人工智能模型所需的计算能力能够产生 60 多万磅的二氧化碳排放——是普通汽车寿命周期排放量的 5 倍。


目前,没有迹象表明,以机器学习行业的发展速度,计算密集型工作将会放缓。OpenAI 的研究显示,深度学习模型的计算能力在 2012 到 2018 年间增长了惊人的 30 万倍,超过了摩尔定律。这个问题不仅仅是训练这些算法,而是要在生产环境下运行它们,或者说在推理阶段。对很多团队而言,由于纯粹的成本和资源的限制,深度学习模型的实际应用仍然遥不可及。


幸好,研究人员发现了一些新的方法来缩小深度学习模型,并通过更智能的算法来优化训练数据集,使得模型在生产环境下运行得更快,计算量也更少。就连业界的一个峰会也专门讨论低功耗、微型机器学习。剪枝(Purning)、优化(Quantization)和迁移学习(Transfer Learning)就是三种具体的技术。这些技术可以让那些无法投资数百万美元把模型转换成生产环境的组织实现机器学习的民主化。对“边缘”用例来说,这一点尤为重要,因为大型专用人工智能硬件在物理上并不切实际。


第一种技术,即剪枝,是近几年来研究的热点之一。包含“深度压缩”(Deep Compression)和“彩票假说”(Lottery Ticket Hypothesis)在内的高引用文献表明,可以在不损失正确性的情况下消除神经网络中“神经元”之间一些不必要的连接,有效地使模型更小、更容易在资源有限的设备上运行。最新的论文进一步验证并完善了早期的技术,以开发出更小的模型,使其达到更高的速度和正确度。对某些模型,比如ResNet,可以在不影响正确性的情况下剪枝 90% 左右。


第二种技术,即优化,也正在逐步普及。优化涉及许多不同的技术,它们可以将大的输入值转换为小的输出值。换句话来说,在硬件上运行神经网络可以产生上百万次乘和加运算。减少这些数学运算的复杂性有助于减少内存需求和计算成本,这将大大提高性能。


最后,虽然这不是一种缩小模型的技术,但是迁移学习能够在有限的数据中帮助训练一个新模型。迁移学习以预训练模型作为起点。通过有限的数据集,模型的知识可以“迁移”到一个新的任务中,而无需从头再来训练原始模型。在训练模型时,这是一种减少计算能力、能源和资金的重要方法。


最重要的启示是,模型可以(也应该)尽可能地优化,使其在较少的计算量下运行。在不牺牲性能和正确性的情况下,寻找减小模型大小和相关计算能力的方法将是机器学习的下一大突破。


如果能有更多人在生产环境中低成本地使用深度学习模型,我们就能真正看到现实世界中创新的新应用。这些应用可以在任何地方运行,甚至是在最小的设备上,以达到做出即使决定所需的速度和正确性。或许,小型模型最好的效果是整个行业能够减少其环境硬件,而不是每六年增加 30 万倍。


作者介绍:


Sasa Zelenovic,Neural Magiic 团队成员,帮助数据科学家发现开源、廉价的硬件加速器替代品,以实现深度学习性能。


原文链接:


https://www.datasciencecentral.com/profiles/blogs/honey-i-shrunk-the-model-why-big-machine-learning-models-must-go

2021-05-12 10:001541
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 548.4 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

java和前端,选哪个好点?

秃头小帅oi

@开发者,请查收新书《MindSpore大语言模型实战》

Geek_2d6073

数据为王 存储先行 | 数智化转型中的数据存储需求变革

Geek_2d6073

如何在软件工程团队中提升领导力

爱吃小舅的鱼

领导力

一文教会你如何使用 iLogtail SPL 处理日志

阿里巴巴云原生

阿里云 云原生 SPL

【DevOps系列】DevOps工具链选型指南

嘉为蓝鲸

DevOps 工具链

【DevOps系列】DevOps全过程质量管控

嘉为蓝鲸

DevOps

浅谈inBuilder中元数据的灰度更新方案

inBuilder低代码平台

低代码 元数据 低代码中的元数据

30岁转行学 IT 如何避免内卷?

高端章鱼哥

QCN9274 and Mesh Networks: A Game-Changer for Seamless Connectivity

wallyslilly

Tecplot 360 EX 2021 R1 for Mac CFD可视化和分析工具

Mac相关知识分享

Scale Prometheus: K8s 部署 GreptimeDB 集群作为 Prometheus 长期存储

Greptime 格睿科技

数据库 k8s 集群

关于C语言指针类型的总结

EquatorCoco

数据结构 算法 C语言

Illustrator 2023版 for mac(Ai2023矢量设计应用程序)

Mac相关知识分享

0基础真的能学会java吗?

伤感汤姆布利柏

【DevOps系列】CICD流程建设之警惕反模式

嘉为蓝鲸

DevOps CI/CD 反模式

C#常见的四种经典查找算法

快乐非自愿限量之名

Java C# 算法

创新实践:基于边缘智能+扣子的智能取物机器人解决方案

火山引擎边缘云

物联网 机器人 智能IoT边缘服务 AI Agents 边缘智能

《使用Gin框架构建分布式应用》阅读笔记:p143-p207

codists

场景题:百万数据插入Redis有哪些实现方案?

王磊

2024 OPPO开发者大会召开,携手火山引擎加速迈进AI语音交互新时代

新消费日报

智能体一体机,大模型时代一叶见菩提

脑极体

AI

工业互联网引领制造业革命:智能化升级与创新亮点揭秘!

EquatorCoco

低代码 工业互联网

贝锐花生壳内网穿透:无需公网IP,远程访问自建WebDAV文件共享!

贝锐

内网穿透 NAS 群晖

抽象最佳实践提供一键复用体验,火山引擎进一步简化 AI 能力落地难度

新消费日报

豆包MarsCode Agent 登顶 SWE-bench Lite 评测集

豆包MarsCode

AI

可视化数学分析软件MathWorks MATLAB R2023a for Mac

Mac相关知识分享

附演讲视频|隐语城市行·北京站:行业发展趋势、大模型前沿技术、实践落地案例干货打包

隐语SecretFlow

lazada 商品详情 API 的获取与应用

科普小能手

API 接口 API 测试 lazada商品评价接口 lazada API接口 lazada API

iPaaS 平台在企业中的定位及集成方式

RestCloud

API网关 应用集成 ipaas api可视化编排

为什么大型机器学习模型必须缩小 ?_AI&大模型_Sasa Zelenovic_InfoQ精选文章