QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

  • 2024-10-16
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:573.79K时长:03:15
火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

10 月 15 日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。


对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。


抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战:首先,超大规模视频训练数据集导致计算和处理成本激增;其次,视频样本数据参差不齐;然后,处理链路环节多、工程复杂;最后,面临着对 GPU、CPU、ARM 等多种异构算力资源的调度部署难题。


借助 Intel 的 CPU 等资源,火山引擎发布了大模型训练视频预处理方案依托于自研的多媒体处理框架 BMF,以有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案 BMF lite 版本。BMF lite 支持端侧大模型接入和算子加速,更加轻量、通用。


Bytedance Research 负责人李航介绍,豆包视频生成模型 PixelDance 在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为 PixelDance 生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。


豆包视频生成模型 PixelDance 于 9 月 24 日发布,该模型采用 DiT 架构,通过高效的 DiT 融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起广泛关注。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。


火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式 AI 实时交互方案和 AIG3D& 大场景重建方案,从视频的生产端、交互端到消费端,全链路融入了 AI 的能力。


以对话式 AI 实时交互方案为例,依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。


此外,王悦还透露了字节自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了 95% 以上,还在 2024MSU 世界编码器大赛中一举夺得最佳 ASIC 编码器。王悦表示,该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。


2024-10-16 15:498687

评论

发布
暂无评论
发现更多内容

java进阶篇02、注解、反射与动态代理

爱好编程进阶

Java 面试 后端开发

CDH+Kylin三部曲之三:Kylin官方demo

爱好编程进阶

Java 面试 后端开发

Github神作!2021Java秋招高级面试指南,吃透至少阿里P6

爱好编程进阶

Java 面试 后端开发

Java 线程池原理分析

爱好编程进阶

Java 面试 后端开发

Java-8新特性:学习如何使用Lambda表达式(二

爱好编程进阶

Java 面试 后端开发

天翼云发布基于欧拉双版本的自研操作系统——CTyunOS

天翼云开发者社区

Docker下,两分钟极速体验Nacos配置中心

爱好编程进阶

Java 面试 后端开发

Dubbo如何处理业务异常,这个一定要知道哦!

爱好编程进阶

Java 面试 后端开发

Elasticsearch7(1)

爱好编程进阶

Java 面试 后端开发

CAT客户端如何从Apollo中读取配置?

爱好编程进阶

Java 面试 后端开发

gRPC学习之六:gRPC-Gateway集成swagger

爱好编程进阶

Java 面试 后端开发

Java岗开发3年,公司临时抽查算法,离职后这几题我记一辈子(1)

爱好编程进阶

Java 面试 后端开发

Elasticsearch7

爱好编程进阶

Java 面试 后端开发

ForkJoin实现分而治之

爱好编程进阶

Java 面试 后端开发

TiDB 6.0 的「元功能」:Placement Rules in SQL 是什么?

Geek_2d6073

SFTP是什么协议?优势有哪些?与FTP有什么不同?

行云管家

运维 ftp sftp

深入浅出聊Taier—大数据分布式可视化DAG任务调度系统

袋鼠云数栈

大数据 开源 分布式 前端

星环科技创始人孙元浩:数据连接一切,开启融合数据云时代

星环科技

Java岗开发3年,公司临时抽查算法,离职后这几题我记一辈子

爱好编程进阶

Java 面试 后端开发

Java面试必备:阿里首发面试通关宝典震撼开源,文档

爱好编程进阶

Java 面试 后端开发

Java字符串转码

爱好编程进阶

Java 面试 后端开发

Java面试-volatile的内存语义

爱好编程进阶

Java 面试 后端开发

HCIE云计算--灾备

爱好编程进阶

Java 面试 后端开发

Java-String-对象,你真的了解了吗?

爱好编程进阶

Java 面试 后端开发

Java8的这些集合骚操作,你掌握了嘛?

爱好编程进阶

Java 面试 后端开发

行业分析| 互联网医疗的发展

anyRTC开发者

音视频 实时通讯 在线医疗 远程问诊 互联网医疗

哪家堡垒机好用?过来人指点一下!

行云管家

数据库 数据安全 堡垒机

5 款最棒的 Vue 移动端 UI 组件库 - 特别针对国内使用场景推荐

蒋川

Vue

自主研发,自主可控,星环科技“魔方底座”全面升级!

星环科技

Java学习路线图(如何快速学Java)

爱好编程进阶

Java 面试 后端开发

Java程序员福音!蚂蚁+字节

爱好编程进阶

Java 面试 后端开发

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型_AI&大模型_褚杏娟_InfoQ精选文章