写点什么

试了下 Stable Video,我的建议是不如不用|AI 测评室

  • 2024-03-04
    北京
  • 本文字数:3251 字

    阅读完需:约 11 分钟

试了下 Stable Video,我的建议是不如不用|AI 测评室

去年 11 月,人工智能初创公司 Stability AI 首次推出了 Stable Video,这款模型基于之前发布的 Stable Diffusion 文本转图片模型进行延伸,能够通过现有图片生成视频,是当时市面上少有的能够生成视频的 AI 模型之一。


当时,Stability AI 在 GitHub 上发布了模型代码,并在 HuggingFace 上发布了权重,有硬件能力和相关技术的用户可以在本地下载和运行。


近日,Stable Video 正式开放公测,这对于那些没有强大的 GPU 或没有足够的技术能力来设置的人来说无疑是个好消息,而且内测期间的 Stable Video 还可以免费使用。另外,尽管大家都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测,因此 Stable Video 公测着实也吸引了一波关注。


那它的效果到底如何呢?

文生视频:恭喜及格


相信很多人都见过 Sora 刚发布时候展示的这个 60 秒视频,无数人都被视频里场景的真实性震撼到了:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    Sora 虽然没有面向公众开放,但其主创团队一直在 X 上发出最新生成的视频。Sora 作者 Tim Brooks 最新的一个视频甚至让好莱坞导演表示,直接搁置了自己影视工作室 8 亿美元的预告计划。


    虽然 Sora 在视频生成上独树一帜,但之前在这个领域耕耘的公司并不甘心落后。首先,我们看看影响了 OpenAI GPT-4 进程的 Stability AI 能做到什么程度。


    为避免提示词这个变量带来的影响,我们与上面 Sora 视频相同的提示词来生成视频。整个操作流程很简单:输入提示词后,它会生成四个相似的图片,从中选择一个后,再选择一个简单的效果后就可以生成视频了。



    最后, Stable Video 生成的视频如下:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      我们把原来的提示词解构成以下 12 个要素:时尚女人、东京街道、霓虹灯、黑色皮夹克、红色长裙、黑色靴子、黑色钱包、太阳镜、口红、走路、反光道路和行人走动, Stable Video 完成了 8 个,“红色长裙、黑色靴子、黑色钱包、走路”四个没有完成,其中“红色长裙、黑色钱包”都发生了交叉理解,“黑色靴子和走路”完全没有体现。


      从画面来看,人物乍看之下没有什么硬伤,镜头效果是在的,背景也做了虚化处理。但画面分辨率太低导致看起来就像是糊了,尤其是画面边缘部分。另外,人物的头发抠图感也比较重。


      我们再看看另一家独角兽 Runway AI 用同一组提示词会生成什么样的视频。我们选择了免费的 Runway Gen-2 ……


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        同样,先看下提示词的完成度。“红色长裙、黑色靴子、黑色钱包、太阳镜、走路、行人走动”这 6 个要素没有完成,其中靴子颜色错了,其他的则是完全没有出现。


        从画面看,这个视频着实缺乏真实感,很漫画风,整个环境跟选择的“电影效果”似乎没有任何关系。人物也很模糊,“口红”要素有些看不出来,关键的是那个“扭头”既突兀又吓人,整体观感不太好。


        Pika 在去年 11 月正式发布 Pika 1.0 后风靡一时,其创始人郭文景也被媒体各种曝光。Pika 1.0 也被称作是 Runway Gen-2 的最强竞品。那对于现在的 Pika 来说,这段提示词能生成什么样的视频?我们也尝试了下:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          提示词完成度方面,“红色长裙、黑色钱包、太阳镜、口红和走路”这 5 个要素没有完成,裙子长度和颜色错误,钱包颜色也错了,“太阳镜、口红、走路”则完全没有出现。


          画面有些赛博朋克风,画面只有一个女人的背影,”太阳镜、口红”这些其实暗示了是人物正面,Pika 并没有 get 到这一点。另外,Pika 背景处理其实比 Stable Video、Runway 好一些,但路过的车是最大失误,行驶后的虚影没有处理好,可以看到 6 个车轮。


          综合上面四个产品,我们针对生成的视频做了纬度评分:



          在视频生成的速度方面,Stable Video 耗时相对较长,大概用了不到一分钟,Runway Gen-2、Pika 相对少一些。根据亲自体验了 Sora 的彭博社说法,Sora 的等待时间可能更久:


          与使用 OpenAI 的 Dall-E 3 生成单个图像相比,Sora 还需要更多的时间和计算能力来生成每个视频。OpenAI 不会准确说明 Sora 处理每个请求需要多长时间,但 Peebles 说这“绝对不是即时的”。“你甚至可以用等待的时间去吃个零食”,OpenAI 研究科学家 Bill Peebles 说道。


          另外,对于 Sora 生成的视频质量,或许用户测试的随意测试的结果也不会像内部人员发出来的那么惊艳。在彭博社博实测 Sora 的视频里,也出现了明显的错误。


          那么,大家认为这四个模型在文成视频方面的差距有多大呢?


          另外,我们也测试了 Stable Video 的中文理解能力,结论是:千万不要用中文提示词!



          我们用上述中文描述让 Stable Video 生成一个视频,没有添加任何效果。结果,除了与“少女”关键词相关外,其他可以说是毫无关系。而且,最后一闪而过的头像,瞬间将视频变成了恐怖片现场。

          图片转视频:一言难尽


          除了文字生成视频,Stable Video 也提供了图片生成方式。将图片转成视频的功能,在厂商宣传中会被包装成用于“视频制作、网页设计等领域”,那真的可以做到了吗?


          我们在测评之前,就有人说尝试用自己的照片转成视频,结果发现有人脸的图都崩了。本来想着应该崩也崩不到哪里去吧,直到自己试了一下……



          我们找了上面的图片(因为我的帅哥同事拒绝了我的出镜请求),并改成了官方给到的推荐尺寸。我们想象的场景是,Stable Video 可以让人的头发和后边的窗纱飘起来,但结果却被吓到了:人脸的扭曲程度太大了!


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            在把“相机”设置去掉,改成“轨道”后,也不行:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              可以看出,视频生成质量跟那些效果设置其实没有关系,还是模型本身质量决定的。我们非常不推荐用人脸的图片转成视频,会被“惊喜”到。而且,喜欢照相的女孩子可能不会喜欢 Stable Video ~


              那么,对于动物图片的生成效果如何呢?我们找了一张可爱的猫猫图,希望不要被“爆改”。



              为了控制各种变量,这次我们什么效果都没有设置,图片尺寸也是推荐尺寸,结果却是:


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                画面里的猫猫动是动起来了,但是面部依然扭曲了。真是想说:还我可爱的猫猫!


                没有人物的风景图可能是最后的倔强了。我们找了一张花草的图片尝试了下:



                生成的视频是这样的:


                00:00 / 00:00
                  1.0x
                  • 3.0x
                  • 2.5x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  花朵摇曳,虽然没有扭曲了,但总有一种假假的感觉,而且视频清晰度太低了,画面很糊。


                  整体来看,对于 Stable Video,我们还是不建议用有人像的图片生成视频,动物图片慎选,风景图可以尝试,但付费的话就要考虑下了。对于图片生成视频的应用,可能适合对视频质量要求不高的场景。


                  脑洞时刻:


                  在网上看到吐槽去年电视剧里各种神奇运镜的视频,这种感觉确实可以用一张图完成:


                  00:00 / 00:00
                    1.0x
                    • 3.0x
                    • 2.5x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    (开个玩笑,不针对任何人哈~~)

                    性价比?不好意思,也没有


                    细心的读者可能发现,在生成设置的图片里,Stable Video 经常提到“宽高比”的问题。官方推荐的图片分辨率是 1024x576、576x1024 或 768x768。但是,官方从头到尾没有在操作过程里给到用户建议尺寸,所以我们是在几乎测试完成后才看到推荐尺寸,然后为了看效果有没有区别就又重新测试了一遍,结果是:毫无区别,只白白浪费了积分。


                    是的,Stable Video 虽然声称免费,但生成视频是消耗积分的。它给了每个用户 150 的初始积分,其中图片生成视频消耗 10 积分,文字生成视频消耗 11 积分。如果用户不使用文本生成的视频,官方则会将积分退回。另外,每个用户每天都会免费获得一些积分,但获得积分数额未来可能会变。


                    等这些积分消耗完之后,用户就到了付费阶段:10 美元(大约 72 元)可以生成 50 个视频,50 美元(大约 360 元)生成 300 个视频。



                    也就是说,70 多块钱可以生成 3 分钟多的视频,幸亏废片可以退,不然真的一点性价比都没有。


                    想了解更多可以查看:


                    https://www.stablevideo.com/faq


                    结束语


                    不否认 Stability AI 官网呈现出来的效果确实也不错,但随手出片是远远做不到的。目测,文生视频比图片生视频的效果好一些,是有“1 积分的提效”。


                    总的来说,Stability AI 这次免费公测 Stable Video,看起来也像是在为商业化铺垫,想试水让大家为效果付费。但 Stable Video 现在呈现出来的效果,还是差点意思。


                    栏目推荐


                    大模型日新月异,夸得天花乱坠,不如实际用用!

                    AI 前线特别栏目《AI 测评室》营业啦!

                    后续 AI 前线将会定期选择模型产品进行测评,效果直观可见,为大家选择模型做参考。


                    你希望我们测试哪个模型效果?可以评论区或私信告诉我们。如果想让大家看到你的产品,也欢迎来撩,微信:T_demo(请注明来意)



                    2024-03-04 10:284601

                    评论 2 条评论

                    发布
                    用户头像
                    最后一个视频,你是想上天,杀死人吗
                    2024-03-04 13:45 · 四川
                    回复
                    用内娱镜头给IT届一点小小的“震撼”hhh
                    2024-03-04 15:38 · 北京
                    回复
                    没有更多了
                    发现更多内容

                    第三周学习心得

                    cc

                    《架构即未来:现代企业可扩展的Web架构流程和组织》.pdf

                    田维常

                    架构

                    spring2.5.6+java6升级到spring4+java8了

                    阿水

                    Java spring 升级

                    架构师训练营第八周作业

                    丁乐洪

                    美团十年架构师精心分享:手写分布式消息中间件RocketMQ笔记

                    小Q

                    学习 面试 微服务 MQ 中间件

                    架构训练营-week12-作业1

                    于成龙

                    命令行搜索神器fzf

                    Rayjun

                    Linux

                    图解MyBatis

                    田维常

                    Java内存模型JMM详细解析

                    程序员 面试 并发编程 架构师

                    刚参加完阿里P6面试归来(Offer已斩获),6点面试经验总结

                    Java架构之路

                    Java 程序员 架构 面试 编程语言

                    可能会重塑未来移动支付市场的格局

                    CECBC

                    货币

                    shell脚本的使用该熟练起来了,你说呢?(篇三)

                    良知犹存

                    Shell

                    怎么保护自己的音乐作品不被盗用,用FL制作防盗水印片段

                    懒得勤快

                    版权保护 音乐 音乐制作 编曲

                    面试官:简单说一下RocketMQ整合SpringBoot吧

                    比伯

                    Java 编程 程序员 架构 计算机

                    阿里聚划算5轮面试题:GC收集器、多线程锁、海量数据技术考核

                    Java架构之路

                    Java 程序员 架构 面试 编程语言

                    一只支持凡尔赛文学创作的摄影手机

                    脑极体

                    《前端算法系列》如何让前端代码速度提高60倍

                    徐小夕

                    Java 算法 大前端

                    100+大厂应届offer,从7个维度全面分析

                    程序员小灰

                    编程 面试 面经 腾讯大厂

                    TCC Demo 代码实现

                    Java 分布式事务 Demo TCC

                    架构师训练营第 12 周学习总结

                    netspecial

                    极客大学架构师训练营

                    2020最新最全的Java架构面试复习指南,掌握10%阿里P7没问题

                    Java架构之路

                    Java 程序员 架构 面试 编程语言

                    架构师系列9: 找出单向链表合并节点

                    桃花原记

                    作业-第8周

                    arcyao

                    OSI七层模型与TCP/IP五层模型

                    Linux服务器开发

                    TCP/IP 网络协议栈 底层应用开发 Linux服务器开发 OSI

                    记录一次腾讯c/c++ linux后台开发岗面试经历(面试题含答案)

                    linux大本营

                    c++ Linux 腾讯 后台开发 架构师

                    架构训练营-week-12总结

                    于成龙

                    架构训练营

                    2020的另一面:5G的斯普特尼克之年

                    脑极体

                    第三周设计作业

                    cc

                    架构师训练营第 12 周作业

                    netspecial

                    极客大学架构师训练营

                    LeetCode题解:22. 括号生成,BFS,JavaScript,详细注释

                    Lee Chen

                    算法 大前端 LeetCode

                    陪你手撕源码系列之 STL set 相关算法

                    herongwei

                    c++ 算法 set stl

                    试了下 Stable Video,我的建议是不如不用|AI 测评室_AI&大模型_褚杏娟_InfoQ精选文章