字节跳动辟谣推出中文版Sora：还无法完善产品落地，距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章

QCon北京「鸿蒙专场」火热来袭！即刻报名，与创新同行~ 了解详情 



 写点什么

登录/注册



大小：303.69K时长：01:43

字节跳动辟谣推出中文版Sora：还无法完善产品落地，距离国外模型有很大差距

今日有消息称，在 Sora 引爆文生视频赛道之前，国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

对此，字节跳动相关人士向媒体回应称，Boximator 是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

根据介绍，Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如，“小猫把自己藏进杯子里了”：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

“由像素组成的角色正在跳舞”：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

“一个红衣女孩用头骨遮住了脸”：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

“一名年轻女子转过头，露出了她的侧脸”：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

“蜘蛛侠向镜头摆动”：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

根据论文介绍，Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件：⼀个空间组件，负责将各个视频帧作为单独的图像进⾏处理；另外一个是时间组件，⽀持跨帧信息交换。

为了实现对视频中物体、人物的动作控制，Boximator 使用了“软框”和“硬框”两种约束方法。其中，硬框可精确定义目标对象的边界框，软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

控制模块可以将框约束的编码与视频帧的视觉编码结合，用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

论文地址：https://arxiv.org/abs/2402.01566

下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比：

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

根据其在Github上的信息，Boximator 演示网站正在开发中，将在未来 2-3 个月内推出。

评论

发布

暂无评论

在Docker中部署DataKit最佳实践

前端如何通过 AI+低代码提升开发体验

从抵触到真香：95 后程序员用飞算 JavaAI 实现效率翻倍

飞算JavaAI开发助手

Go 语言常见错误——代码及工程组织

活动报名：Voice Agent 技术现状及应用展望丨 3.8 北京

Meta 无预警发布新一代 AI 眼镜 Aria Gen 2；腾讯混元 Turbo S 模型将长短思维链融合丨日报

NetScaler Console 14.1 Build 43.50 (ESXi, Hyper-V, KVM, Xen) - 集中管理 NetScaler

Windows 11 绕过 TPM 方法总结，通用免 TPM 镜像下载 (2025 年 2 月更新)

NetScaler 14.1 Build 43.50 (nCore, VPX, SDX, CPX, BLX) - 混合多云应用交付控制器

Databend Cloud 通过 SOC 2 和 GDPR 认证，助力用户实现数据安全与隐私保护的双重保障

飞算 JavaAI 如何让微服务开发快人一步？

飞算JavaAI开发助手

告别重复造轮子！飞算 JavaAI 一键生成工程代码

飞算JavaAI开发助手

百万技术博主实测：AI+Java 一键写程序，写一句代码算我输

飞算JavaAI开发助手

Infinity Ground的Agentic IDE，引领AI x Web3创作新浪潮

Splunk Enterprise 9.4.1 (macOS, Linux, Windows) - 机器数据管理和分析

Splunk Enterprise

IT 项目进度管理工具大盘点：2025年16款热门选择

易成研发中心

项目管理系统

时代夹缝中的“小单快反”模式

iPaaS集成平台与ESB在应用场景上的区别

ESB API 数据集成平台 ipaas 软件集成

《Operating System Concepts》阅读笔记：p162-p176

如何选择最适合企业持续发展的财务规划方式？

企业管理全面预算管理财务规划

接入DeepSeek, AI能否带搜索重回初心

GpuGeek亮相第三届北京人工智能产业创新发展大会

飞算 JavaAI：支持复杂业务逻辑生成，降低 80% 开发门槛

飞算JavaAI开发助手

2025年实用的排班系统：8款主流工具推荐与对比

易成研发中心

企业级数据可视化的范式演进：基于低代码平台的动态响应式设计方法论

不在线第一只蜗牛

AI眼镜未至，小米先“加码”AI耳机

AI 小米消费耳机数码

HR系统软件哪家好？大家常用的 9 款HR系统比较

易成研发中心