高性能网络通信框架释放 AI 算力的实践_QCon_刘一鸣

【AICon】如何构建高效的 RAG 系统？RAG 技术在实际应用中遇到的挑战及应对策略？>>> 了解详情 



 写点什么

相比于 MapReduce 等传统数据处理做法，大规模分布式 AI 场景下的网络通信面临着不一样的挑战。对于处理大规模离散特征的算法，如逻辑回归（LR），消息吞吐量将直接影响到整个训练任务的性能。对于处理稠密特征的深度学习算法或者是树模型（GBDT），网络延迟很容易成为性能瓶颈。不同的 AI 算法面临不一样的性能瓶颈，我们设计了自己的 RPC 框架——PRPC，以求能在多变的 AI 场景下，都能实现优秀的性能。通过 Zerocopy 和自研事件调度系统降低通信延迟；通过 RDMA 技术优化机器学习离线训练和线上预估。PRPC 的定位是尽可能的适应不同的机器学习的场景，最大化分布式计算的性能，所以我们让他与应用层进行了适当的耦合，从而使的整个过程都是 Zerocopy 的，同时上层算法也尽可能进行原地计算，使的整个机器学习任务的性能达到极致。对于 LR 算法和 GBDT 算法，RDMA 模式下的 PRPC 有数倍性能提升。与 ZMQ，BPRC 和 GRPC 对比 PRPC 在大部分机器学习场景下有较大性能优势。第四范式基础架构负责人刘一鸣即将在 QCon 全球软件开发大会（上海站）2019分享《高性能网络通信框架释放 AI 算力的实践》

听众受益

了解大规模分布式机器学习场景下不同算法的性能瓶颈和解决思路；
高性能组件 RDMA 在大规模分布式机器学习场景下的应用和网络性能优化经验；
RPC 的接口设计以及 Linux 事件调度的优化。

嘉宾介绍

刘一鸣，2012 级上海交通大学 ACM 班成员，现就职于第四范式，任基础架构负责人，是第四范式先知平台独有的大规模分布式机器学习框架 GDBT 的设计者，现在专注于机器学习系统的高性能计算和软硬一体优化，主导落地了分布式大规模参数服务器和 RDMA 网络框架。主要领域为机器学习分布式系统设计及高性能优化。

更多人工智能应用与实践的相关分享请访问 QCon 上海 2019 官网。

发布

暂无评论

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
北京 · QCon全球软件开发大会 2024.4.18-20
北京 · AICon 全球人工智能与大模型应用峰会 2024.5.17-18
深圳 · ArchSummit全球架构师峰会 2024.6.14-15
上海 · FCon全球金融科技大会 2024.8.16-17
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

创作场景

高性能网络通信框架释放 AI 算力的实践

听众受益

评论

Week1学习总结

GrowingIO Terraform 实践

架构实战营-模块1-作业

技术架构演进的思考

架构实战营模块1课后作业

模块一作业

从实习到秋招成为一名安全工程师，我经历了什么

TypeScript 之 Class（下）

Spring AOP(一) AOP基本概念

第一模块作业

Python Qt GUI设计：菜单栏、工具栏和状态栏的使用方法（拓展篇—2）

我粗心，有救吗？

「从0到1如何快速实现cli工具」

记录-今年最骄傲的一件事（2）

基于云的技术架构设计实践-第5篇

Hoo虎符研究院｜ Arweave调研报告

毕业总结

微信业务架构图&学生管理系统毕业架构设计

日本公司诚招IT开发技术者

微信业务架构图&&“学生管理系统”毕业架构设计

学习总结

架构实战营三期--模块一作业

透过全球首个知识增强千亿大模型，看到中国AI差异化发展之路

Rust 元宇宙 15 —— 细节和重构

作业：架构实战营模块1

Git 报错：unable to update local ref

消费类电子线上问题定位，分析和解决落地

如何验证你的产品创意？

第一周作业

彻底弄懂死锁

我所理解的微服务

创作场景

高性能网络通信框架释放 AI 算力的实践

听众受益

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载