QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576279

                评论

                发布
                暂无评论
                发现更多内容

                在Docker中部署DataKit最佳实践

                观测云

                Docker

                前端如何通过 AI+低代码 提升开发体验

                秃头小帅oi

                从抵触到真香:95 后程序员用飞算 JavaAI 实现效率翻倍

                飞算JavaAI开发助手

                Go 语言常见错误——代码及工程组织

                FunTester

                活动报名:Voice Agent 技术现状及应用展望丨 3.8 北京

                声网

                Meta 无预警发布新一代 AI 眼镜 Aria Gen 2;腾讯混元 Turbo S 模型将长短思维链融合丨日报

                声网

                NetScaler Console 14.1 Build 43.50 (ESXi, Hyper-V, KVM, Xen) - 集中管理 NetScaler

                sysin

                NetScaler

                Windows 11 绕过 TPM 方法总结,通用免 TPM 镜像下载 (2025 年 2 月更新)

                sysin

                NetScaler 14.1 Build 43.50 (nCore, VPX, SDX, CPX, BLX) - 混合多云应用交付控制器

                sysin

                NetScaler

                Databend Cloud 通过 SOC 2 和 GDPR 认证,助力用户实现数据安全与隐私保护的双重保障

                Databend

                飞算 JavaAI 如何让微服务开发快人一步?

                飞算JavaAI开发助手

                告别重复造轮子!飞算 JavaAI 一键生成工程代码

                飞算JavaAI开发助手

                百万技术博主实测:AI+Java 一键写程序 ,写一句代码算我输

                飞算JavaAI开发助手

                Infinity Ground的Agentic IDE,引领AI x Web3创作新浪潮

                股市老人

                Splunk Enterprise 9.4.1 (macOS, Linux, Windows) - 机器数据管理和分析

                sysin

                Splunk Enterprise

                IT 项目进度管理工具大盘点:2025年16款热门选择

                易成研发中心

                项目管理系统

                时代夹缝中的“小单快反”模式

                Alter

                iPaaS集成平台与ESB在应用场景上的区别

                RestCloud

                ESB API 数据集成平台 ipaas 软件集成

                《Operating System Concepts》阅读笔记:p162-p176

                codists

                操作系统

                如何选择最适合企业持续发展的财务规划方式?

                智达方通

                企业管理 全面预算管理 财务规划

                接入DeepSeek, AI能否带搜索重回初心

                脑极体

                AI

                GpuGeek亮相第三届北京人工智能产业创新发展大会

                极客天地

                飞算 JavaAI:支持复杂业务逻辑生成,降低 80% 开发门槛

                飞算JavaAI开发助手

                2025年实用的排班系统:8款主流工具推荐与对比

                易成研发中心

                自动排班

                企业级数据可视化的范式演进:基于低代码平台的动态响应式设计方法论

                不在线第一只蜗牛

                低代码

                AI眼镜未至,小米先“加码”AI耳机

                趣解商业

                AI 小米 消费 耳机 数码

                HR系统软件哪家好?大家常用的 9 款HR系统比较

                易成研发中心

                HR系统

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章