AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

千卡级分布式集群上的视觉多模态大模型落地实践 |AICon 上海

  • 2025-04-22
    北京
  • 本文字数:1113 字

    阅读完需:约 4 分钟

大小:605.33K时长:03:26
千卡级分布式集群上的视觉多模态大模型落地实践 |AICon上海

5 月 23 日-24 日,AICon全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


vivo AI 研究院 AI 架构师王兆雄已确认出席 AICon 上海并将在多模态大模型创新实践专题发表题为《千卡级分布式集群上的视觉多模态大模型落地实践》的主题分享。多模态大模型在智能客服、自动驾驶、AIGC 等领域的应用需求不断增长,但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级 GPU 训练集群上,如何优化数据加载、提升训练稳定性、突破计算与存储瓶颈,成为 AI Infra 需要重点攻克的难题。


本次演讲将基于 LLaVA 视觉多模态理解模型和 FLUX 文生图模型的训练工程实践,详细解析大规模 GPU 训练集群下的数据存储优化、分布式计算策略、训练容错机制,并探讨如何提升大规模多模态模型的训练效率和稳定性。演讲将重点介绍混合并行训练、数据高效加载、自动容错恢复等技术方案,为业界提供可落地的工程实践经验。


王兆雄曾就职于京东商城和猎豹移动,拥有丰富的大数据分析和游戏服务端研发经验,主导设计并实现了支撑数千万日活用户的轻量级游戏服务端架构。目前在 vivo AI 研究院任职,负责过 vivo 手机智慧桌面信息流和全局搜索服务端的推荐与搜索架构,支撑亿级用户。现负责视觉多模态大模型的训练工程,具备千卡级分布式集群上大模型训练的丰富经验,致力于构建高性能、可扩展的 AI 解决方案。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 多模态大模型的训练工程挑战

2. AI Infra 四大优化方向

  • 数据处理优化

  • 模型计算优化

  • 分布式通信优化

  • 训练稳定性建设

3. 训练工程案例:LLaVA & FLUX

  • 视觉多模态理解模型(LLaVA)的训练优化

  • 文生图 FLUX 结构的训练工程

4. AI Infra 未来展望


听众收益:

  • 深入理解多模态大模型的训练挑战,尤其是理解模型 vs 生成模型的工程区别

  • 掌握大规模 GPU 训练集群的优化策略,包括数据处理、并行计算、通信优化

  • 学习如何提升训练稳定性,减少长时间训练中的失败率

  • 借鉴 LLaVA 和 FLUX 训练的实际优化经验,为自身多模态模型训练提供参考


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-22 14:001

评论

发布
暂无评论

Go-Excelize API源码阅读(九)——SetSheetBackground(sheet, picture string)

Regan Yue

Go 开源 源码解读 8月日更 8月月更

如何正确理解Java领域中的多线程模型,主要用来解决什么问题?

PivotalCloud

STM32入门开发 编写DS18B20温度传感器驱动(读取环境温度、支持级联)

DS小龙哥

8月月更

MySQL 原理与优化:意向锁,IS,IX

老崔说架构

涨薪了!拿着GitHub标星80k的阿里性能优化笔记,把项目优化个遍

程序知音

Java 编程 程序员 性能优化 后端技术

TE数字化共创之路 | 这场旅程,从数字化共创平台开始

明道云

3-6月面经总结,200多页真题笔记和详解(含核心考点及6家大厂)

程序猿阿宇

Java java程序员 大厂面试 秋招 大厂面经

PyCharm 2022.2 发布了,支持最新 Python 3.11 和 PyScript 框架!

Python猫

史上最全的Java并发系列之Java中的锁的使用和实现介绍(二)

自然

多线程 并发 8月月更

应用系统日志打印规范实践之道

陈俊

日志 规范

大逆不道,从天界偷下来的算法修仙秘籍竟然传到你手上~~(结尾有彩蛋)

武师叔

数据结构与算法 有趣的技术知识 复杂度分析 签约计划第三季 8月月更

史上最全499道Java面试题:JVM+分布式+算法+锁+MQ+微服务+数据库

冉然学Java

Java 数据库 面试 算法 多线程

C++运算符重载(五)之关系运算符重载

CtrlX

c c++ C# 重载 8月月更

Java技术专家成长路线总结(思维导图)

程序猿阿宇

Java java程序员 大厂面试 秋招 大厂面经

史上最全的Java并发系列之Java中的线程池

自然

线程池 并发 8月月更

Kubernetes宕机切换源码分析

黄继承

源码分析 kubelet Kubernetes 集群 宕机

体验家辛济云:CEM不是MarTech,不仅要“从0到1”,更要规避“从1到0”

B Impact

五分钟搞定YAML

俞凡

云原生 yaml

计算机网络知识点全面总结(一篇全懂)

C++后台开发

网络编程 计算机网络 网络协议 底层原理 C/C++开发

Vue讲解系列- - -Nginx和Postman讲解

叶秋学长

Vue 8月月更

美团二面:如何解决 bin log 与 redo log 的一致性问题

飞天小牛肉

签约计划第三季

【LeetCode】检查数组是否存在有效划分Java题解

Albert

LeetCode 8月月更

超新概念出炉,JDK17的封闭类使用解析

知识浅谈

8月月更

95后跳槽阿里网晒工资条:多亏面试前补了这个,真香

程序猿阿宇

Java java程序员 大厂面试 大厂面经 内推

知乎疯传,吹爆阿里P7《K8s+Jenkins》的技术手册

程序知音

Java 编程 程序员 后端技术 #k8s

React Server Components 介绍 亮点

HullQin

CSS JavaScript html 前端 8月月更

千万级学生管理系统的考试试卷存储方案

张立奎

【云原生】Spring Cloud Alibaba 之 Feign 远程调用 实战

Bug终结者

分布式 微服务 云原生 8月月更

JSON 基本使用

兮动人

json

开源一夏|OpenHarmony视频播放器

坚果

开源 OpenHarmony 8月月更

废除“网络君主制”,认识 Usenet ~

掘金安东尼

前端 网络 8月月更

千卡级分布式集群上的视觉多模态大模型落地实践 |AICon上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章