写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576124

                评论

                发布
                暂无评论
                发现更多内容

                5种容器内指定特定域名解析结果的方式

                华为云开发者联盟

                容器 云原生 华为云 域名解析 华为云开发者联盟

                亮相CCF中国软件大会,天翼云助力千行百业搭上“数字快车”

                天翼云开发者社区

                人工智能 CCF

                管理 Kubernetes 集群这3年,我踩过的十个坑

                高端章鱼哥

                Kubernetes 计算机

                低代码平台浅析:引迈JNPF

                互联网工科生

                低代码 JNPF 引迈

                AI浪潮下,大模型如何在音视频领域运用与实践?

                不在线第一只蜗牛

                人工智能 AI 音视频 大模型

                小红书可观测 Metrics 架构演进,如何实现数十倍性能提升?

                小红书技术REDtech

                云原生 可观测性

                行业唯一!百度上榜“2023年度中国数据管理十大名牌企业”

                百度安全

                华为云CodeArts Pipeline常见问答汇总

                华为云PaaS服务小智

                华为云

                凝心聚力 共赢计算新时代 ——2023计算产业生态大会在京圆满举办

                彭飞

                前方高能!2023开放原子开发者大会亮点攻略,一触即发

                开放原子开源基金会

                Java 开源 程序员 开发者 算法

                介绍一款低代码数据可视化平台

                秃头小帅oi

                低代码 数据可视化

                【教程】源代码加密、防泄密软件

                雪奈椰子

                技术写作者所需的关键技能和知识

                小万哥

                技术 程序人生 写作 软件开发 作者

                关于响应式布局,你需要了解的知识点

                EquatorCoco

                响应式 页面布局 布局

                最佳 Mock 工具排行榜: 顶级5个必知选择

                Liam

                前端 前端开发 Mock Mock 服务 Mock.js

                Axie Infinity 之后,Ronin 的潜力何在?

                Footprint Analytics

                区块链 以太坊 Web3 游戏 Ronin

                luchysheet升级版univer产品介绍会

                梦数技术团队

                typescript 前端 Vue3 Typescript

                这就是univer

                梦数技术团队

                typescript 前端 React Hydrate Vue3 Typescript

                宣布推出适用于 Amazon DynamoDB 的增量导出到 S3

                亚马逊云科技 (Amazon Web Services)

                S3 API 云存储服务 Amazon DynamoDB

                点燃数字引擎,天翼云助力汽车行业云上加速跑!

                天翼云开发者社区

                人工智能 数字化转型 汽车

                项目实战接口开发SpringBoot

                不在线第一只蜗牛

                springboot 项目开发 区块链项目开发

                网易游戏与华为达成鸿蒙合作

                最新动态

                华为云CodeArts Deploy常见问答汇总

                华为云PaaS服务小智

                华为云

                华为云CodeArts Repo常见问答汇总

                华为云PaaS服务小智

                华为云

                19家游戏伙伴参加鸿蒙原生游戏合作仪式,与华为游戏中心一起推动产业自主创新和高质量发展

                新消费日报

                理解Mysql索引原理及特性

                快乐非自愿限量之名

                MySQL 开发 检索 检索引擎

                KaiwuDB 连续三年荣获开源中国“优秀开源技术团队”

                KaiwuDB

                KaiwuDB 优秀开源技术团队

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章