写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:575605

                评论

                发布
                暂无评论

                如何开发 LAXCUS 分布式应用软件(四):编写边缘端软件

                LAXCUS分布式操作系统

                并行计算 端边云协同架构 分布式操作系统 分布式应用软件

                维护版式文档技术生态 国际PDF协会向福昕软件发来感谢信

                联营汇聚

                在线TSV转纯文本工具

                入门小站

                工具

                知名金融数字化服务提供商南天信息加入龙蜥社区

                OpenAnolis小助手

                开源 金融数字化 龙蜥社区 CLA 南天信息

                论现象背后的驱动结构

                凌晞

                架构 结构化思维

                【愚公系列】2022年05月 二十三种设计模式(十一)-享元模式(Flyweight Pattern)

                愚公搬代码

                5月月更

                Cilium 多集群 ClusterMesh 介绍

                Se7en

                架起医院就诊“快车道”,YRCloudFile 打造智慧 PACS 存储系统

                焱融科技

                云计算 分布式 高性能 文件存储 智慧医疗

                Hadoop Echarts

                Emperor_LawD

                hadoop 5月月更

                备受关注的Bit.Store,最新动态一览

                小哈区块

                单源最短路问题

                工程师日月

                算法 5月月更

                4月月更开奖啦!中奖者速来领取!

                InfoQ写作社区官方

                热门活动

                备受关注的Bit.Store,最新动态一览

                西柚子

                数据产品经理的价值管理

                第519区

                团队管理 项目管理 产品经理 数据产品经理 项目经理

                druid 源码阅读 2——minEvictableIdleTimeMillis参数的实现逻辑

                张大彪

                玩了一场剧本杀,同车队友“不是人”

                脑极体

                时序数据库在监控运维平台中的应用

                CnosDB

                IoT 时序数据库 开源社区 CnosDB infra

                linux之iftop命令

                入门小站

                Linux

                快速上手 Pythond 采集器的最佳实践

                观测云

                运维 可观测性 可观测

                2021年国内促进软件产业发展十大事件出炉,HarmonyOS 2入选

                科技汇

                在线HTTP请求头响应头转JSON工具

                入门小站

                工具

                百万用户规模电商秒杀系统架构设计

                「架构实战营」

                设计微博系统中“微博评论”的高性能高可用计算架构

                高山觅流水

                「架构实战营」

                云图说|华为云帮助中心最佳实践:源自项目实战的上云指导

                华为云开发者联盟

                最佳实践 华为云 云图说 帮助中心 业务上云

                Iframe的好处和坏处

                恒山其若陋兮

                5月月更

                备受关注的Bit.Store,最新动态一览

                BlockChain先知

                【刷题第五天】1. 两数之和

                白日梦

                5月月更

                深入剖析 split locks,i++ 可能导致的灾难

                火山引擎开发者社区

                “软件定义汽车”的数字化之变,华为云低代码平台带来了什么?

                脑极体

                关于数据一致性的理论

                穿过生命散发芬芳

                数据一致性 5月月更

                大数据的特点

                奔向架构师

                大数据 数据仓库 5月月更

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章