在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

解析高效分布式训练系统 PERSIA:可用于训练百万亿参数的超大规模深度学习推荐模型

  • 2022-01-12
  • 本文字数:1252 字

    阅读完需:约 4 分钟

解析高效分布式训练系统PERSIA:可用于训练百万亿参数的超大规模深度学习推荐模型

基于深度学习技术的模型主导了现代工业级推荐系统的行业格局。现代推荐系统在大量场景中获得了实际应用。在规模不断扩大的深度神经网络模型的推动下,它们取得了一系列令人难以置信的成果和进步。



然而,即使在工业级规模的数据中心内,此类模型的训练工作也是一大挑战。这一挑战的根源在于训练工作的计算过程所具备的极高异质性 —— 模型的嵌入层可能占整个模型大小的 99.99%以上。整个过程非常耗费内存,而神经网络(NN)的其余部分则逐渐向计算密集的方向发展。


快手科技与苏黎世联邦理工学院的研究团队共同发布了基于革命性混合训练算法的高效分布式训练系统 PERSIA(混合加速并行推荐训练系统)。这种方法为拥有多达百万亿参数的巨型深度学习推荐系统提供了很高的训练效率和精度。研究人员精心设计了其中的优化方法和分布式系统架构。


Persia 的能力来源于多项技术成果。Persia 的核心技术假设将混合和异构的训练算法与异构系统架构设计结合在了一起。研究人员这样做的目标是将训练推荐系统的性能提升到当今无法达到的水平上。


这项研究将推荐模型的各项属性与其收敛性联系在了一起,以证明其有效性。研究人员描述了一种自然但不常见的混合训练技术,触及嵌入层和密集神经网络模块。此外,该研究还对其收敛行为做了详尽的理论描述。在快手,PERSIA 使用公开可用的基准测试和现实工作负载进行了评估。


研究人员最初提出了一种同步-异步混合方法,其中嵌入模块会进行异步训练。同时,密集神经网络会同步更新。在不牺牲统计效率的情况下,这种混合方法实现了与完全异步模式相当的硬件效率。


PERSIA 的设计基于两个基本理念:


  • 训练工作流在不同集群中的分布

  • 相关的混合基础设施训练进程 PERSIA 有四个模块,为推荐系统提供高效的自动缩放能力:

  • 从 Hadoop、Kafka 和其他分布式存储系统中提取训练数据的数据加载器;

  • 一组嵌入 worker 使用优化算法从嵌入 PS 中提取嵌入参数。它们再将嵌入梯度放回嵌入 PS 和聚合嵌入向量(如果有的话)

  • 嵌入参数服务器(简称嵌入 PS)负责监督嵌入层中参数的存储和更新。

  • 许多 NN worker 运行神经网络 NN 的前向/后向传播。研究团队针对三个开源基准(Taobao-Ad、Avazu-Ad 和 Criteo-Ad)以及快手的真实生产级微视频推荐管道对 PERSIA 进行了测试。他们使用了 XDL 和 PaddlePaddle 这两个前沿分布式推荐训练系统作为基线参考。


与其他系统相比,新混合算法获得了更高的吞吐量。PERSIA 在 Kwai-video 基准测试中实现了比完全同步方法高 2.8 倍的吞吐量。即使模型大小增加到 100 万亿个参数,PERSIA 也表现出了稳定的训练吞吐量,达到完全同步模式吞吐量的 2.6 倍。


PERSIA 已在 GitHub 上作为开源项目提供,其中包含在谷歌的云基础架构上设置系统的详细说明。研究人员预计,他们的研究和发现将对学术界和工业界都有所帮助。


论文:https://arxiv.org/pdf/2111.05897.pdf


Github:https://github.com/persiaml/persia


原文链接:


https://www.marktechpost.com/2021/12/05/researchers-introduce-persia-a-pytorch-based-system-for-training-large-scale-deep-learning-recommendation-models-up-to-100-trillion-parameters

2022-01-12 14:054467
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 609.9 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

1688商品列表API接口指南

Datafox(数据狐)

1688API 1688数据接口 1688数据采集 1688商品列表api

我用文心快码Spec 模式搓了个“pre作弊器”,妈妈再也不用担心我开会忘词了(附源码)

Comate编码助手

AI编程 文心快码 智能编程助手 文心快码Spec模式

YashanDB自动化备份策略与灾难恢复技术

数据库砖家

从零开始掌握YashanDB数据库的基本配置与管理技巧

数据库砖家

打造高效稳定的YashanDB数据库运维体系关键要点

数据库砖家

打造高性能服务平台,YashanDB数据库优化实践

数据库砖家

搭建YashanDB高性能分析平台的10个步骤

数据库砖家

打造高性能企业数据库,YashanDB关键配置分享

数据库砖家

云网融合助力运营商数字化转型

光联世纪

Interspeech 2026 第二届音频编码器能力挑战赛正式启动

极客天地

采用YashanDB数据库优化企业客户关系管理系统.

数据库砖家

从零开始掌握YashanDB数据库核心操作

数据库砖家

人均产能提升25%、交期准时率95%+:机械组装MES的真实成效人均产能提升25%、交期准时率95%+:机械组装MES的真实成效

万界星空科技

mes 机械加工mes 制造业转型 机械组装mes 设备组装MES

YashanDB中的数据压缩技术及存储节省效果.

数据库砖家

部署YashanDB云端数据库的关键步骤与技巧

数据库砖家

从架构设计看YashanDB的高可用实现路径

数据库砖家

打造高性能分布式系统:深入掌握YashanDB架构

数据库砖家

BOE(京东方)“焕新2026”年终媒体智享会落地深圳 绘就显示产业生态新蓝图

爱极客侠

有什么开发路径能实现像菜鸟裹裹一样的物流信息管理能力?

快递鸟

SRE 踩坑记:JVM 暂停竟然是因为日志

巴辉特

JVM STW Logging

从零开始掌握YashanDB数据库配置与维护技巧

数据库砖家

促进企业数字转型的YashanDB关键功能盘点

数据库砖家

YashanDB自动化扩容策略及实践经验分享

数据库砖家

AI赋能工业4.0:数据堂一站式数据服务加速制造智能化落地

数据堂

人工智能 数据标注 工业制造

小型区块链合约交易所(支持 3-5 条公链)开发预算

西安链酷科技

为什么越来越多的PHP程序员在学Go?

王中阳Go

php Go

YashanDB智能运维平台提升数据库管理效率

数据库砖家

从零开始搭建YashanDB数据库环境的实用指南

数据库砖家

打造高效团队:YashanDB数据库管理最佳实践汇总

数据库砖家

【隐语Secreflow】如何配置 Kuscia 对请求进行 Path Rewrit

隐语SecretFlow

CrossOver:Mac电脑玩Windows游戏的终极方案

顶顶年华

Mac软件 mac游戏 CrossOver Mac下载 苹果电脑使用 虚拟机安装

解析高效分布式训练系统PERSIA:可用于训练百万亿参数的超大规模深度学习推荐模型_AI&大模型_G Chaithali_InfoQ精选文章