限时!亚马逊云科技云从业者认证考试五折,未过免费补考!更有好礼相送! 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:575575

                评论

                发布
                暂无评论

                使用协程优化你的业务

                android 程序员 移动开发

                删除/var/lib/cni更换网络插件但是kubernetes没有正常启动

                ilinux

                关于listView(列表)的各种使用方法

                android 程序员 移动开发

                关于QPS高并发,你了解多少?

                android 程序员 移动开发

                代码怎样review?

                android 程序员 移动开发

                作为Android开发者,你真的知道Android按下开机键到启动发生什么吗?

                android 程序员 移动开发

                你是不是疯了,为什么字节跳动的Offer都不要了?

                android 程序员 移动开发

                仿新浪微博客户端--界面设计(1)

                android 程序员 移动开发

                【Java对象拷贝机制】使用CGlib实现Bean拷贝(BeanCopier)

                洛神灬殇

                对象拷贝 11月日更 BeanCopier

                全新Android-Material-组件你在用了吗?

                android 程序员 移动开发

                你必须要掌握的Android冷启动优化

                android 程序员 移动开发

                做了6年的Android,靠着这份900多页的PDF面试整理,薪资Double!

                android 程序员 移动开发

                你的产出是别的程序员的10倍,为什么无法获得10倍的工资?

                android 程序员 移动开发

                你知道 Android 面试官最喜欢问那些技术点嘛?这篇带你复盘往年面试题!

                android 程序员 移动开发

                使用Flutter完成10个商业项目后的经验教训

                android 程序员 移动开发

                gitlab-runner出现too many connections

                ilinux

                全网独家盘点Android热修复方案(含阿里巴巴、美团、腾讯等

                android 程序员 移动开发

                六年老Android开发,突遇公司搬离上海无赔偿,我该怎么办?

                android 程序员 移动开发

                关于提高编程思维与工作效率的总结

                android 程序员 移动开发

                以 29K 成功入职字节跳动,这份《 Android 面试笔记 》让我受益匪浅

                android 程序员 移动开发

                你还在为-TCP-重传、滑动窗口、流量控制、拥塞控制发愁吗

                android 程序员 移动开发

                像奥利奥一样的双重安全措施,尽在 Android Oreo

                android 程序员 移动开发

                六年 Android 开发的涨薪之路,从15K涨到30K的面试解析

                android 程序员 移动开发

                关于Android内存泄漏的那些事

                android 程序员 移动开发

                关于内存泄漏和内存溢出的那些事!

                android 程序员 移动开发

                图解Pandas的排名rank机制

                Peter

                Python 数据分析 pandas

                你知道App为什么会Crash吗?

                android 程序员 移动开发

                你知道Java类什么情况下会被初始化吗?

                android 程序员 移动开发

                加入 node 后 flannel 报错

                ilinux

                优雅保活方案,原来Android还可以这样保活!

                android 程序员 移动开发

                全面解析Android进阶面试常客之Handler

                android 程序员 移动开发

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章