写点什么

试了下 Stable Video,我的建议是不如不用|AI 测评室

  • 2024-03-04
    北京
  • 本文字数:3251 字

    阅读完需:约 11 分钟

试了下 Stable Video,我的建议是不如不用|AI 测评室

去年 11 月,人工智能初创公司 Stability AI 首次推出了 Stable Video,这款模型基于之前发布的 Stable Diffusion 文本转图片模型进行延伸,能够通过现有图片生成视频,是当时市面上少有的能够生成视频的 AI 模型之一。


当时,Stability AI 在 GitHub 上发布了模型代码,并在 HuggingFace 上发布了权重,有硬件能力和相关技术的用户可以在本地下载和运行。


近日,Stable Video 正式开放公测,这对于那些没有强大的 GPU 或没有足够的技术能力来设置的人来说无疑是个好消息,而且内测期间的 Stable Video 还可以免费使用。另外,尽管大家都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测,因此 Stable Video 公测着实也吸引了一波关注。


那它的效果到底如何呢?

文生视频:恭喜及格


相信很多人都见过 Sora 刚发布时候展示的这个 60 秒视频,无数人都被视频里场景的真实性震撼到了:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    Sora 虽然没有面向公众开放,但其主创团队一直在 X 上发出最新生成的视频。Sora 作者 Tim Brooks 最新的一个视频甚至让好莱坞导演表示,直接搁置了自己影视工作室 8 亿美元的预告计划。


    虽然 Sora 在视频生成上独树一帜,但之前在这个领域耕耘的公司并不甘心落后。首先,我们看看影响了 OpenAI GPT-4 进程的 Stability AI 能做到什么程度。


    为避免提示词这个变量带来的影响,我们与上面 Sora 视频相同的提示词来生成视频。整个操作流程很简单:输入提示词后,它会生成四个相似的图片,从中选择一个后,再选择一个简单的效果后就可以生成视频了。



    最后, Stable Video 生成的视频如下:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      我们把原来的提示词解构成以下 12 个要素:时尚女人、东京街道、霓虹灯、黑色皮夹克、红色长裙、黑色靴子、黑色钱包、太阳镜、口红、走路、反光道路和行人走动, Stable Video 完成了 8 个,“红色长裙、黑色靴子、黑色钱包、走路”四个没有完成,其中“红色长裙、黑色钱包”都发生了交叉理解,“黑色靴子和走路”完全没有体现。


      从画面来看,人物乍看之下没有什么硬伤,镜头效果是在的,背景也做了虚化处理。但画面分辨率太低导致看起来就像是糊了,尤其是画面边缘部分。另外,人物的头发抠图感也比较重。


      我们再看看另一家独角兽 Runway AI 用同一组提示词会生成什么样的视频。我们选择了免费的 Runway Gen-2 ……


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        同样,先看下提示词的完成度。“红色长裙、黑色靴子、黑色钱包、太阳镜、走路、行人走动”这 6 个要素没有完成,其中靴子颜色错了,其他的则是完全没有出现。


        从画面看,这个视频着实缺乏真实感,很漫画风,整个环境跟选择的“电影效果”似乎没有任何关系。人物也很模糊,“口红”要素有些看不出来,关键的是那个“扭头”既突兀又吓人,整体观感不太好。


        Pika 在去年 11 月正式发布 Pika 1.0 后风靡一时,其创始人郭文景也被媒体各种曝光。Pika 1.0 也被称作是 Runway Gen-2 的最强竞品。那对于现在的 Pika 来说,这段提示词能生成什么样的视频?我们也尝试了下:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          提示词完成度方面,“红色长裙、黑色钱包、太阳镜、口红和走路”这 5 个要素没有完成,裙子长度和颜色错误,钱包颜色也错了,“太阳镜、口红、走路”则完全没有出现。


          画面有些赛博朋克风,画面只有一个女人的背影,”太阳镜、口红”这些其实暗示了是人物正面,Pika 并没有 get 到这一点。另外,Pika 背景处理其实比 Stable Video、Runway 好一些,但路过的车是最大失误,行驶后的虚影没有处理好,可以看到 6 个车轮。


          综合上面四个产品,我们针对生成的视频做了纬度评分:



          在视频生成的速度方面,Stable Video 耗时相对较长,大概用了不到一分钟,Runway Gen-2、Pika 相对少一些。根据亲自体验了 Sora 的彭博社说法,Sora 的等待时间可能更久:


          与使用 OpenAI 的 Dall-E 3 生成单个图像相比,Sora 还需要更多的时间和计算能力来生成每个视频。OpenAI 不会准确说明 Sora 处理每个请求需要多长时间,但 Peebles 说这“绝对不是即时的”。“你甚至可以用等待的时间去吃个零食”,OpenAI 研究科学家 Bill Peebles 说道。


          另外,对于 Sora 生成的视频质量,或许用户测试的随意测试的结果也不会像内部人员发出来的那么惊艳。在彭博社博实测 Sora 的视频里,也出现了明显的错误。


          那么,大家认为这四个模型在文成视频方面的差距有多大呢?


          另外,我们也测试了 Stable Video 的中文理解能力,结论是:千万不要用中文提示词!



          我们用上述中文描述让 Stable Video 生成一个视频,没有添加任何效果。结果,除了与“少女”关键词相关外,其他可以说是毫无关系。而且,最后一闪而过的头像,瞬间将视频变成了恐怖片现场。

          图片转视频:一言难尽


          除了文字生成视频,Stable Video 也提供了图片生成方式。将图片转成视频的功能,在厂商宣传中会被包装成用于“视频制作、网页设计等领域”,那真的可以做到了吗?


          我们在测评之前,就有人说尝试用自己的照片转成视频,结果发现有人脸的图都崩了。本来想着应该崩也崩不到哪里去吧,直到自己试了一下……



          我们找了上面的图片(因为我的帅哥同事拒绝了我的出镜请求),并改成了官方给到的推荐尺寸。我们想象的场景是,Stable Video 可以让人的头发和后边的窗纱飘起来,但结果却被吓到了:人脸的扭曲程度太大了!


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            在把“相机”设置去掉,改成“轨道”后,也不行:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              可以看出,视频生成质量跟那些效果设置其实没有关系,还是模型本身质量决定的。我们非常不推荐用人脸的图片转成视频,会被“惊喜”到。而且,喜欢照相的女孩子可能不会喜欢 Stable Video ~


              那么,对于动物图片的生成效果如何呢?我们找了一张可爱的猫猫图,希望不要被“爆改”。



              为了控制各种变量,这次我们什么效果都没有设置,图片尺寸也是推荐尺寸,结果却是:


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                画面里的猫猫动是动起来了,但是面部依然扭曲了。真是想说:还我可爱的猫猫!


                没有人物的风景图可能是最后的倔强了。我们找了一张花草的图片尝试了下:



                生成的视频是这样的:


                00:00 / 00:00
                  1.0x
                  • 3.0x
                  • 2.5x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  花朵摇曳,虽然没有扭曲了,但总有一种假假的感觉,而且视频清晰度太低了,画面很糊。


                  整体来看,对于 Stable Video,我们还是不建议用有人像的图片生成视频,动物图片慎选,风景图可以尝试,但付费的话就要考虑下了。对于图片生成视频的应用,可能适合对视频质量要求不高的场景。


                  脑洞时刻:


                  在网上看到吐槽去年电视剧里各种神奇运镜的视频,这种感觉确实可以用一张图完成:


                  00:00 / 00:00
                    1.0x
                    • 3.0x
                    • 2.5x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    (开个玩笑,不针对任何人哈~~)

                    性价比?不好意思,也没有


                    细心的读者可能发现,在生成设置的图片里,Stable Video 经常提到“宽高比”的问题。官方推荐的图片分辨率是 1024x576、576x1024 或 768x768。但是,官方从头到尾没有在操作过程里给到用户建议尺寸,所以我们是在几乎测试完成后才看到推荐尺寸,然后为了看效果有没有区别就又重新测试了一遍,结果是:毫无区别,只白白浪费了积分。


                    是的,Stable Video 虽然声称免费,但生成视频是消耗积分的。它给了每个用户 150 的初始积分,其中图片生成视频消耗 10 积分,文字生成视频消耗 11 积分。如果用户不使用文本生成的视频,官方则会将积分退回。另外,每个用户每天都会免费获得一些积分,但获得积分数额未来可能会变。


                    等这些积分消耗完之后,用户就到了付费阶段:10 美元(大约 72 元)可以生成 50 个视频,50 美元(大约 360 元)生成 300 个视频。



                    也就是说,70 多块钱可以生成 3 分钟多的视频,幸亏废片可以退,不然真的一点性价比都没有。


                    想了解更多可以查看:


                    https://www.stablevideo.com/faq


                    结束语


                    不否认 Stability AI 官网呈现出来的效果确实也不错,但随手出片是远远做不到的。目测,文生视频比图片生视频的效果好一些,是有“1 积分的提效”。


                    总的来说,Stability AI 这次免费公测 Stable Video,看起来也像是在为商业化铺垫,想试水让大家为效果付费。但 Stable Video 现在呈现出来的效果,还是差点意思。


                    栏目推荐


                    大模型日新月异,夸得天花乱坠,不如实际用用!

                    AI 前线特别栏目《AI 测评室》营业啦!

                    后续 AI 前线将会定期选择模型产品进行测评,效果直观可见,为大家选择模型做参考。


                    你希望我们测试哪个模型效果?可以评论区或私信告诉我们。如果想让大家看到你的产品,也欢迎来撩,微信:T_demo(请注明来意)



                    2024-03-04 10:284457

                    评论 2 条评论

                    发布
                    用户头像
                    最后一个视频,你是想上天,杀死人吗
                    2024-03-04 13:45 · 四川
                    回复
                    用内娱镜头给IT届一点小小的“震撼”hhh
                    2024-03-04 15:38 · 北京
                    回复
                    没有更多了

                    顶级免费缺陷管理工具评测:你的最佳选择

                    爱吃小舅的鱼

                    缺陷管理 缺陷跟踪 缺陷管理软件推荐

                    macOS Sequoia 15(Macos15系统)v15.0 Beta 3测试版本

                    Rose

                    Cornerstone意外退出的解决方法 Cornerstone 4.2永久激活版 Mac SVN工具

                    Rose

                    Macs Fan Control Pro风扇预设介绍 Macs Fan Control Pro mac风扇转速和温度

                    Rose

                    NTFS磁盘格式读写工具 Tuxera 2022 mac注册版 及破解教程

                    Rose

                    云原生向量数据库内核揭秘亮了,PostgreSQL 中国技术大会AIGC场景引关注

                    AI数据云Relyt

                    AIGC 向量数据库 GenAI AIGC案例 AI数据云

                    【永久密钥】VMware Fusion Pro 13 for Mac(VM虚拟机)v13.5.0激活版

                    Rose

                    火山引擎数据飞轮升级实验平台架构,解决人效与成本问题

                    Geek_2d6073

                    photoshop2020电脑配置要求 ps 2020中文直装版下载【Mac/win】

                    理理

                    (2024最新)Pycharm破解激活2099年激活码教程(含win+mac)

                    理理

                    喜讯!云起无垠入选《2024年中国网络安全市场全景图》

                    云起无垠

                    生产环境Nginx配置

                    源字节1号

                    小程序 开源 前端 后端

                    Microsoft Remote Desktop如何远程Windows电脑?

                    理理

                    Bonree ONE赋能汽车行业 重塑可观测性体验

                    博睿数据

                    (永久激活)MAMP PRO 本地Web服务器开发环境 【Mac/win】

                    理理

                    新手必看!sublime text 快捷键大集合

                    Rose

                    NTFS Disk by Omi NTFS for mac(NTFS 磁盘管理器)安装简单 兼容m芯片

                    理理

                    DriveDx for mac(mac磁盘健康检测和监控工具)v1.12.1激活版

                    理理

                    如何激活Parallels Desktop 18虚拟机?PD18破解激活教程

                    理理

                    腾讯云大数据连续三年蝉联中国大数据市场领导者象限

                    腾讯云大数据

                    腾讯云 大数据

                    解决 SecureCRT中文乱码方法(附SecureCRT mac永久注册码)

                    Rose

                    使用css制作心形图案并且添加动画心动效果

                    源字节1号

                    开源

                    VSD Viewer破解版(Visio绘图文件阅读器) v6.16.1激活版

                    理理

                    Axure RP教程(Axure RP中文授权码),如何查看和共享您的原型?

                    Rose

                    多项第一!天翼云霸气登顶政务公有云市场

                    Geek_2d6073

                    深入了解 DN-404:引领 NFT 市场的创新标准

                    NFT Research

                    NFT\ web3、 ERC404

                    跨平台的SSH、Telnet和SFTP客户端 Termius for Mac v8.4.0激活版

                    Rose

                    Beyond Compare 4 文件同步对比工具|适用于PC端和macOS电脑

                    理理

                    理解 gRPC 与 REST:选择适合您项目的最佳 API 方案

                    Liam

                    程序员 gRPC 后端 Rest API

                    set a light 3d studio 2.5汉化版 Mac 3D模拟布光软件

                    理理

                    华为大咖说 | 数字时代的财富秘诀:数据资产化全攻略

                    华为云PaaS服务小智

                    华为云 资产管理

                    试了下 Stable Video,我的建议是不如不用|AI 测评室_AI&大模型_褚杏娟_InfoQ精选文章