Facebook 的深度学习开源框架PyTorch发布了1.6版本,带来了新的 API 和性能改进。与此同时,微软宣布将接管该框架 Windows 版本的开发和维护工作。
PyTorch 团队在最近的一篇博文中强调了新版本的主要特性。本地自动混合精度(AMP)训练在Tensor Core GPU上可节省高达 50%的内存,新的 Beta 版内存分析器为调试内存问题提供帮助。PyTorch 支持的两个分布式训练范式(数据并行和模型并行)现在可以一起使用了,并且 RPC 框架包含了一个支持TensorPipe的新后端。在另一篇博文中,微软的一个团队宣布了其在 PyTorch 社区的角色,包括对 PyTorch Windows 版本的所有权、改进测试覆盖率和改进文档。根据团队的说法:
微软很乐意提供Windows的专业知识,并把PyTorch带到Windows上,使其达到最好的状态。
2017 年 1 月,社区希望发布 Windows 版的 PyTorch,并被包含在当年 12 月的0.3.0版本中。与其他很多开源项目一样,大部分 Windows 版的开发工作都是由社区贡献的,尤其是Jiachen Pu。然而,有限的可用资源意味着测试覆盖率低下、教程过时,而且一些特性(如分布式训练)根本不可用。微软的努力已经让核心 PyTorch 库和领域库 TorchText、TorchAudio 和 TorchVision 的 Linux 版本的测试覆盖率达到了“标准”。下一个工作领域将包括支持通过pip安装和分布式训练。
PyTorch 支持两种分布式训练:数据并行(data-parallel)和模型并行(model-parallel)。前者在多台机器上训练模型的完整副本,每台机器上都有训练数据的分区,而后者的模型的不同部分在不同的机器上训练。模型并行训练对于无法加载到单台机器内存的超大模型非常有用。数据并行训练通过将工作负载分布在多台机器上,加快了整个训练过程,将它与模型并行训练相结合可以进一步加快训练。在版本 1.4 中,PyTorch 引入了一个支持模型并行训练的分布式远程过程调用(RPC)系统,但是在最新的 1.6 版本之前,这两种类型的分布式训练还不能同时使用。新版本还更新了 RPC 系统,包括对 TensorPipe 的支持,这是一种“感知 TensorPipe 的点对点通信原语”,可以改进分布式训练集群中机器之间的数据传输。
混合精度训练是在训练过程中使用不同的比特数来表示不同的值。例如,一些层或操作可能需要完整的 32 位浮点数,而其他的可能只需要 16 位。PyTorch 1.6 支持自动混合精度(AMP)训练,自动为每个值选择合适的精度。当在 Tensor Core GPU 上使用时,可以节省高达 50%的内存。这个版本还包括了Autograd Profiler的 Beta 版本,它可以报告模型中 CPU 和 GPU 的内存使用情况。
在 Reddit 的一个讨论中,一位用户写道:
新的分析工具似乎是我很久以来一直想要的东西——PyTorch最烦人的一个地方就是神秘的内存泄漏。
PyTorch 的源代码和 1.6 版本的发布说明可以在 GitHub 上找到。
原文链接:
PyTorch 1.6 Released, Microsoft Takes over Windows Version
评论