写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576315

                评论

                发布
                暂无评论
                发现更多内容

                手撸二叉树之二叉树的锯齿形层序遍历

                HelloWorld杰少

                9月日更

                超全面Redis分布式高可用方案:哨兵机制

                架构精进之路

                redis 后端 引航计划 内容合集

                千万级学生管理系统的考试试卷存储方案

                michael

                #架构实战营

                写给互联网工程师的5G书 | 6. 参考实现

                俞凡

                架构 5G 网络 通信

                P8级别的顶级“并发编程”宝典,面试完腾讯我才发现这些知识点竟然没掌握全

                Java 程序员 后端

                写给互联网工程师的5G书 | 7. 云化接入网

                俞凡

                架构 5G 网络 通信

                Java面试必刷的200道真题,深挖底层原理、啃源码,最终上岸

                Java 程序员 后端

                Nginx如何支持HTTPS,大厂Java高级多套面试专题整理集合

                Java 程序员 后端

                linux之lscpu命令

                入门小站

                Linux

                Opus从入门到精通(八)Opus编码基础之压缩编码

                轻口味

                android 音视频 9月日更

                写给互联网工程师的5G书 | 5. 高级功能

                俞凡

                架构 5G 网络 通信

                端口连接出现大量FIN_WAIT1/CLOSE_WAIT

                hasWhere

                Vue进阶(幺贰贰):ES6 判断是否为空对象

                No Silver Bullet

                Vue 9月日更

                Prometheus 2.24.0 新特性

                耳东@Erdong

                release Prometheus 9月日更

                参数校验如何优雅的处理

                卢卡多多

                参数校验 9月日更

                给开发新人的信:学会深思熟虑

                baiyutang

                9月日更

                什么是操作型系统

                奔向架构师

                数据仓库 9月日更

                MLOps RNN 卷积神经网络- 吴恩达Andrew Ng 论文等资料汇总 易筋 ARTS 打卡 Week 66

                John(易筋)

                ARTS 打卡计划

                消息队列存储消息数据的MySQL表格设计

                gawaine

                架构师训练

                写给互联网工程师的5G书 | 4. RAN详解

                俞凡

                架构 5G 网络 通信

                P8级别的顶级“并发编程”宝典,linux基础入门知识

                Java 程序员 后端

                一个不错的投屏软件

                IT蜗壳-Tango

                9月日更

                模块八作业

                SAKIN

                PDF超过6000页,2021最新Java面试题及答案

                Java 程序员 后端

                在线将JS/JavaScript-Object转JSON工具

                入门小站

                工具

                【Flutter 专题】41 图解神秘的 SystemChrome

                阿策小和尚

                Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

                CoroutineWorker

                Changing Lin

                9月日更

                详细讲解服务幂等性设计

                架构精进之路

                后端 幂等性 引航计划 内容合集

                ☕【Java 技术指南】「并发编程专题」Fork/Join 框架基本使用和原理探究(原理篇)

                码界西柚

                forkjoin forkjoinpool 9月日更 任务盗取

                Canvas API 的基本用法

                devpoint

                html5 canvas 9月日更

                Linux创建/删除新用户

                在即

                9月日更

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章