随着智能设备的普及,深度神经网络在智能手机、可穿戴设备等嵌入式设备上的应用越来越常见,这些嵌入式设备对模型体积、计算性能、功耗等方面都有比较严格的要求。但与此同时,深度学习网络规模却在不断增大,计算复杂度随之增高,严重限制了其在手机等智能设备上的应用。深度学习模型压缩与加速技术就是为了解决这一问题而生,其研究目的是:在保证现有模型的性能和精度基本不变的前提下,采用一些方法有效地大幅减少计算量、缩小模型的体积。除了可以在移动端AI应用场景派上用场,模型压缩技术也可以帮助一些实时应用减少神经网络的存储和计算成本,如在线学习、增量学习以及自动驾驶。
InfoQ希望通过策划这个选题对深度学习模型压缩技术的研究和应用现状、技术创新点、落地难点、局限性和未来发展方向等内容进行呈现,并推动该领域的发展。
目前还没有任何工作能构建出一个与任务无关的轻量级预训练模型,谷歌大脑研发人员提出了 MobileBERT 来填补这一空白。
基于通道剪枝的模型压缩方法对模型部署时的计算方式没有额外要求,因此是目前比较常用的模型压缩方案。
追求更小、更快、更高效
在移动设备和许多在线应用中,实时性能好的轻量级模型是一大重要需求。
深度学习模型能够被压缩,本质上是因为参数的冗余,因此可以采用参数更少、结构更稀疏或者更低精度的运算来代替。