写点什么

解析高效分布式训练系统 PERSIA:可用于训练百万亿参数的超大规模深度学习推荐模型

  • 2022-01-12
  • 本文字数:1252 字

    阅读完需:约 4 分钟

解析高效分布式训练系统PERSIA:可用于训练百万亿参数的超大规模深度学习推荐模型

基于深度学习技术的模型主导了现代工业级推荐系统的行业格局。现代推荐系统在大量场景中获得了实际应用。在规模不断扩大的深度神经网络模型的推动下,它们取得了一系列令人难以置信的成果和进步。



然而,即使在工业级规模的数据中心内,此类模型的训练工作也是一大挑战。这一挑战的根源在于训练工作的计算过程所具备的极高异质性 —— 模型的嵌入层可能占整个模型大小的 99.99%以上。整个过程非常耗费内存,而神经网络(NN)的其余部分则逐渐向计算密集的方向发展。


快手科技与苏黎世联邦理工学院的研究团队共同发布了基于革命性混合训练算法的高效分布式训练系统 PERSIA(混合加速并行推荐训练系统)。这种方法为拥有多达百万亿参数的巨型深度学习推荐系统提供了很高的训练效率和精度。研究人员精心设计了其中的优化方法和分布式系统架构。


Persia 的能力来源于多项技术成果。Persia 的核心技术假设将混合和异构的训练算法与异构系统架构设计结合在了一起。研究人员这样做的目标是将训练推荐系统的性能提升到当今无法达到的水平上。


这项研究将推荐模型的各项属性与其收敛性联系在了一起,以证明其有效性。研究人员描述了一种自然但不常见的混合训练技术,触及嵌入层和密集神经网络模块。此外,该研究还对其收敛行为做了详尽的理论描述。在快手,PERSIA 使用公开可用的基准测试和现实工作负载进行了评估。


研究人员最初提出了一种同步-异步混合方法,其中嵌入模块会进行异步训练。同时,密集神经网络会同步更新。在不牺牲统计效率的情况下,这种混合方法实现了与完全异步模式相当的硬件效率。


PERSIA 的设计基于两个基本理念:


  • 训练工作流在不同集群中的分布

  • 相关的混合基础设施训练进程 PERSIA 有四个模块,为推荐系统提供高效的自动缩放能力:

  • 从 Hadoop、Kafka 和其他分布式存储系统中提取训练数据的数据加载器;

  • 一组嵌入 worker 使用优化算法从嵌入 PS 中提取嵌入参数。它们再将嵌入梯度放回嵌入 PS 和聚合嵌入向量(如果有的话)

  • 嵌入参数服务器(简称嵌入 PS)负责监督嵌入层中参数的存储和更新。

  • 许多 NN worker 运行神经网络 NN 的前向/后向传播。研究团队针对三个开源基准(Taobao-Ad、Avazu-Ad 和 Criteo-Ad)以及快手的真实生产级微视频推荐管道对 PERSIA 进行了测试。他们使用了 XDL 和 PaddlePaddle 这两个前沿分布式推荐训练系统作为基线参考。


与其他系统相比,新混合算法获得了更高的吞吐量。PERSIA 在 Kwai-video 基准测试中实现了比完全同步方法高 2.8 倍的吞吐量。即使模型大小增加到 100 万亿个参数,PERSIA 也表现出了稳定的训练吞吐量,达到完全同步模式吞吐量的 2.6 倍。


PERSIA 已在 GitHub 上作为开源项目提供,其中包含在谷歌的云基础架构上设置系统的详细说明。研究人员预计,他们的研究和发现将对学术界和工业界都有所帮助。


论文:https://arxiv.org/pdf/2111.05897.pdf


Github:https://github.com/persiaml/persia


原文链接:


https://www.marktechpost.com/2021/12/05/researchers-introduce-persia-a-pytorch-based-system-for-training-large-scale-deep-learning-recommendation-models-up-to-100-trillion-parameters

2022-01-12 14:054130
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 548.4 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

AI与AE实时交互MG动画制作神器AE脚本 Overlord v1.27激活版 Win/Mac

Rose

1000道最新Java面试题,常见大厂面试题及答案汇总

架构师之道

程序员 java面试

通义灵码“打工”1年记:写了10亿行代码,服务上万家企业

阿里云云效

阿里云 云原生

连锁茶叶商店ERP系统(源码+文档+部署+讲解)

深圳亥时科技

测试开发工程师如何打造高效的质量体系

测吧(北京)科技有限公司

测试

ChatGPT应用的开发流程

北京木奇移动技术有限公司

软件开发 AI应用 AI智能体

手把手教你华为鸿蒙开发之第八节

The Wang

HarmonyOS NEXT

Milvus×OPPO:如何构建更懂你的大模型助手

Zilliz

Embedding OPPO 向量检索 Milvus

使用Docker构建集成Supervisor的自定义镜像

代码忍者

Deep Glow破解版下载 附永久激活码 (AE物理发光特效插件)

Rose

中文汉化版AE插件 optical flares插件(镜头光晕耀斑插件) 附永久许可证

Rose

仅需一小时,教你用豆包MarsCode 学会图像物体识别

豆包MarsCode

程序员 AI 开发 代码 识别工具

和网易伏羲共探 100 个值得深入学习的技术创新案例|TOP100Summit

网易伏羲

人工智能 演讲 网易伏羲

面对不同大小的需求,如何评估研发团队各角色的效能水平?

思码逸研发效能

DevOps 研发效能 研发团队 效能管理

Milvus 2.5:全文检索上线,标量过滤提速,易用性再突破!

Zilliz

全文检索 Milvus 新版本发布 标量过滤

通义灵码“打工”1年记:写了10亿行代码,服务上万家企业

阿里巴巴云原生

阿里云 云原生

如何让硬装设计项目高效推进?从混乱到有序的秘诀

axe

项目管理工具 降本增效 装修项目管理 硬装设计

Dolphinscheduler DAG核心源码剖析

白鲸开源

GitHub 大数据 开源 Apache DolphinScheduler 调度器

AI在手机里结出了果

脑极体

AI

Sketch Measure for Mac(sketch标注插件) v2.8.1中文激活版

Rose

ChatGPT插件的开发流程

北京木奇移动技术有限公司

AI智能体 chatGPT插件开发 软件外包公司

向量检索服务关联角色

DashVector

人工智能 数据库 向量检索 大模型

能源投资工程VS智能驾驶,DolphinScheduler如何当好传统行业与前沿科技的桥梁?

白鲸开源

开源 Apache DolphinScheduler 技术活动 干货分享

Spring高手之路26——全方位掌握事务监听器

砖业洋__

spring 事务

AE/PR/OFX/达芬奇视频延时闪屏去闪烁插件 Flicker Free for Mac激活版

Rose

产品UIUE行动报告

鲸品堂

企业号 2024年12月PK榜

KubeBlocks v0.9.2发布啦!支持容器镜像滚动更新、MySQL支持Jemalloc...快来升级体验更多新功能!

小猿姐

MySQL 数据库 redis 云计算 Kubernetes Serverless

手把手教你华为鸿蒙开发之第九节

The Wang

HarmonyOS NEXT

【金猿人物展】白鲸开源CEO郭炜:未来数据领域的PK是大模型Transformer vs 大数据Transform

白鲸开源

大数据 数据处理 大模型 Apache SeaTunnel

解析高效分布式训练系统PERSIA:可用于训练百万亿参数的超大规模深度学习推荐模型_AI&大模型_G Chaithali_InfoQ精选文章