火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型_AI&大模型_褚杏娟



大小：573.79K时长：03:15

10 月 15 日，火山引擎在视频云技术大会上发布了大模型训练视频预处理方案，助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前，该技术方案已应用于豆包视频生成模型。

对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息，从而使模型能更高效地学习视频中的特征和知识，提升训练效果和效率。

抖音集团视频架构负责人王悦表示，对大模型厂商而言，上述过程中面临着诸多挑战：首先，超大规模视频训练数据集导致计算和处理成本激增；其次，视频样本数据参差不齐；然后，处理链路环节多、工程复杂；最后，面临着对 GPU、CPU、ARM 等多种异构算力资源的调度部署难题。

借助 Intel 的 CPU 等资源，火山引擎发布了大模型训练视频预处理方案依托于自研的多媒体处理框架 BMF，以有效应对模型训练的算力成本挑战。此外，该方案还在算法和工程方面进行了调优，可以对海量视频数据高质量预处理，短时间内实现处理链路的高效协同，提高模型训练效率。值得一提的是，火山引擎本次还发布并开源了移动端后处理解决方案 BMF lite 版本。BMF lite 支持端侧大模型接入和算子加速，更加轻量、通用。

Bytedance Research 负责人李航介绍，豆包视频生成模型 PixelDance 在训练过程中采用了火山引擎的大模型训练视频预处理方案，充分利用了大量潮汐资源，为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为 PixelDance 生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务，让模型的商业化应用有了保障。

豆包视频生成模型 PixelDance 于 9 月 24 日发布，该模型采用 DiT 架构，通过高效的 DiT 融合计算单元和全新设计的扩散模型训练方法，突破了多主体运动的复杂交互、多镜头切换的内容一致性难题，在业界引起广泛关注。目前，豆包视频生成模型已通过火山引擎面向企业开启邀测。

火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式 AI 实时交互方案和 AIG3D& 大场景重建方案，从视频的生产端、交互端到消费端，全链路融入了 AI 的能力。

以对话式 AI 实时交互方案为例，依托豆包大模型和火山引擎视频云自研的多项算法，火山引擎为用户提供了智能对话和自然语言处理的强大能力，可实现毫秒级人声检测和打断响应，以及丝滑稳定的端到端响应体验。

此外，王悦还透露了字节自研视频编解码芯片的最新进展，经过抖音集团内部的实践验证，该芯片在同等视频压缩效率下，成本节省了 95% 以上，还在 2024MSU 世界编码器大赛中一举夺得最佳 ASIC 编码器。王悦表示，该芯片将于近期正式对外开放测试，招募首批种子用户，共同探索商业价值的可复制性。

发布

暂无评论

创作场景

火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

评论

jqGrid表格封装和使用方法

写在《SRE生存指南》出版之际

GoF设计模式 | 单例模式

架构师训练营第七周作业

职业吐槽与反思（一）

性能优化-架构师体现技术全面性的时刻

创业使人成长系列（5）-申请国家高新企业

neo4j 批量导入数据的几种方式

JVM性能调优监控工具 jps jstat jinfo jmap jhat jstack

OrientDB etl 工具导入 rdbms数据

手撕设计模式

Java的异常处理

为什么 Flink 无法实时写入 MySQL？

前后端分离跨域问题解决方案

Neo4j APOC 使用

蚂蚁金服上市了，我不想努力了

专访英特尔唐炯：对旗下产品性能及未来路线图充满信心

jvm-config

前后端统一结果集封装

架构师训练营第七课总结

解决 Harbor 启动失败故障

vcenter 5.5故障处理

elasticsearch-restful-api笔记

GoF设计模式 | 工厂方法模式

百万并发「零拷贝」技术系列之初探门径

canal 笔记

Cmder 使用笔记

C++ 线程安全的单例模式总结

neo4j load csv 使用

一张PDF了解JDK11 GC调优秘籍-附PDF下载

玩转混合加密 | 精美配图

创作场景

火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载