千卡级分布式集群上的视觉多模态大模型落地实践｜AICon上海

5 月 23 日-24 日，AICon全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地，围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题，呈现技术与应用融合的最新趋势。

vivo AI 研究院 AI 架构师王兆雄已确认出席 AICon 上海并将在多模态大模型创新实践专题发表题为《千卡级分布式集群上的视觉多模态大模型落地实践》的主题分享。多模态大模型在智能客服、自动驾驶、AIGC 等领域的应用需求不断增长，但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级 GPU 训练集群上，如何优化数据加载、提升训练稳定性、突破计算与存储瓶颈，成为 AI Infra 需要重点攻克的难题。

本次演讲将基于 LLaVA 视觉多模态理解模型和 FLUX 文生图模型的训练工程实践，详细解析大规模 GPU 训练集群下的数据存储优化、分布式计算策略、训练容错机制，并探讨如何提升大规模多模态模型的训练效率和稳定性。演讲将重点介绍混合并行训练、数据高效加载、自动容错恢复等技术方案，为业界提供可落地的工程实践经验。

王兆雄曾就职于京东商城和猎豹移动，拥有丰富的大数据分析和游戏服务端研发经验，主导设计并实现了支撑数千万日活用户的轻量级游戏服务端架构。目前在 vivo AI 研究院任职，负责过 vivo 手机智慧桌面信息流和全局搜索服务端的推荐与搜索架构，支撑亿级用户。现负责视觉多模态大模型的训练工程，具备千卡级分布式集群上大模型训练的丰富经验，致力于构建高性能、可扩展的 AI 解决方案。他在本次会议的详细演讲内容如下：

演讲提纲：
1. 多模态大模型的训练工程挑战
2. AI Infra 四大优化方向
数据处理优化
模型计算优化
分布式通信优化
训练稳定性建设
3. 训练工程案例：LLaVA & FLUX
视觉多模态理解模型（LLaVA）的训练优化
文生图 FLUX 结构的训练工程
4. AI Infra 未来展望
听众收益：
深入理解多模态大模型的训练挑战，尤其是理解模型 vs 生成模型的工程区别
掌握大规模 GPU 训练集群的优化策略，包括数据处理、并行计算、通信优化
学习如何提升训练稳定性，减少长时间训练中的失败率
借鉴 LLaVA 和 FLUX 训练的实际优化经验，为自身多模态模型训练提供参考

除此之外，本次大会还策划了AI Agent 构建及多元应用、多模态大模型创新实践、AI for Data，数据管理与价值挖掘实践、大模型推理性能优化策略、AI 产品设计的创新思维、智能硬件与大模型的融合探索、金融领域大模型应用实践、大模型助力业务提效实践等专题，届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

创作场景

千卡级分布式集群上的视觉多模态大模型落地实践｜AICon 上海

创作场景

千卡级分布式集群上的视觉多模态大模型落地实践 ｜AICon 上海

千卡级分布式集群上的视觉多模态大模型落地实践｜AICon 上海