QCon北京开幕在即|与全球 140+ 顶尖工程师共同解构 AI 时代的技术浪潮 了解详情
写点什么

试了下 Stable Video,我的建议是不如不用|AI 测评室

  • 2024-03-04
    北京
  • 本文字数:3251 字

    阅读完需:约 11 分钟

试了下 Stable Video,我的建议是不如不用|AI 测评室

去年 11 月,人工智能初创公司 Stability AI 首次推出了 Stable Video,这款模型基于之前发布的 Stable Diffusion 文本转图片模型进行延伸,能够通过现有图片生成视频,是当时市面上少有的能够生成视频的 AI 模型之一。


当时,Stability AI 在 GitHub 上发布了模型代码,并在 HuggingFace 上发布了权重,有硬件能力和相关技术的用户可以在本地下载和运行。


近日,Stable Video 正式开放公测,这对于那些没有强大的 GPU 或没有足够的技术能力来设置的人来说无疑是个好消息,而且内测期间的 Stable Video 还可以免费使用。另外,尽管大家都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测,因此 Stable Video 公测着实也吸引了一波关注。


那它的效果到底如何呢?

文生视频:恭喜及格


相信很多人都见过 Sora 刚发布时候展示的这个 60 秒视频,无数人都被视频里场景的真实性震撼到了:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    Sora 虽然没有面向公众开放,但其主创团队一直在 X 上发出最新生成的视频。Sora 作者 Tim Brooks 最新的一个视频甚至让好莱坞导演表示,直接搁置了自己影视工作室 8 亿美元的预告计划。


    虽然 Sora 在视频生成上独树一帜,但之前在这个领域耕耘的公司并不甘心落后。首先,我们看看影响了 OpenAI GPT-4 进程的 Stability AI 能做到什么程度。


    为避免提示词这个变量带来的影响,我们与上面 Sora 视频相同的提示词来生成视频。整个操作流程很简单:输入提示词后,它会生成四个相似的图片,从中选择一个后,再选择一个简单的效果后就可以生成视频了。



    最后, Stable Video 生成的视频如下:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      我们把原来的提示词解构成以下 12 个要素:时尚女人、东京街道、霓虹灯、黑色皮夹克、红色长裙、黑色靴子、黑色钱包、太阳镜、口红、走路、反光道路和行人走动, Stable Video 完成了 8 个,“红色长裙、黑色靴子、黑色钱包、走路”四个没有完成,其中“红色长裙、黑色钱包”都发生了交叉理解,“黑色靴子和走路”完全没有体现。


      从画面来看,人物乍看之下没有什么硬伤,镜头效果是在的,背景也做了虚化处理。但画面分辨率太低导致看起来就像是糊了,尤其是画面边缘部分。另外,人物的头发抠图感也比较重。


      我们再看看另一家独角兽 Runway AI 用同一组提示词会生成什么样的视频。我们选择了免费的 Runway Gen-2 ……


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        同样,先看下提示词的完成度。“红色长裙、黑色靴子、黑色钱包、太阳镜、走路、行人走动”这 6 个要素没有完成,其中靴子颜色错了,其他的则是完全没有出现。


        从画面看,这个视频着实缺乏真实感,很漫画风,整个环境跟选择的“电影效果”似乎没有任何关系。人物也很模糊,“口红”要素有些看不出来,关键的是那个“扭头”既突兀又吓人,整体观感不太好。


        Pika 在去年 11 月正式发布 Pika 1.0 后风靡一时,其创始人郭文景也被媒体各种曝光。Pika 1.0 也被称作是 Runway Gen-2 的最强竞品。那对于现在的 Pika 来说,这段提示词能生成什么样的视频?我们也尝试了下:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          提示词完成度方面,“红色长裙、黑色钱包、太阳镜、口红和走路”这 5 个要素没有完成,裙子长度和颜色错误,钱包颜色也错了,“太阳镜、口红、走路”则完全没有出现。


          画面有些赛博朋克风,画面只有一个女人的背影,”太阳镜、口红”这些其实暗示了是人物正面,Pika 并没有 get 到这一点。另外,Pika 背景处理其实比 Stable Video、Runway 好一些,但路过的车是最大失误,行驶后的虚影没有处理好,可以看到 6 个车轮。


          综合上面四个产品,我们针对生成的视频做了纬度评分:



          在视频生成的速度方面,Stable Video 耗时相对较长,大概用了不到一分钟,Runway Gen-2、Pika 相对少一些。根据亲自体验了 Sora 的彭博社说法,Sora 的等待时间可能更久:


          与使用 OpenAI 的 Dall-E 3 生成单个图像相比,Sora 还需要更多的时间和计算能力来生成每个视频。OpenAI 不会准确说明 Sora 处理每个请求需要多长时间,但 Peebles 说这“绝对不是即时的”。“你甚至可以用等待的时间去吃个零食”,OpenAI 研究科学家 Bill Peebles 说道。


          另外,对于 Sora 生成的视频质量,或许用户测试的随意测试的结果也不会像内部人员发出来的那么惊艳。在彭博社博实测 Sora 的视频里,也出现了明显的错误。


          那么,大家认为这四个模型在文成视频方面的差距有多大呢?


          另外,我们也测试了 Stable Video 的中文理解能力,结论是:千万不要用中文提示词!



          我们用上述中文描述让 Stable Video 生成一个视频,没有添加任何效果。结果,除了与“少女”关键词相关外,其他可以说是毫无关系。而且,最后一闪而过的头像,瞬间将视频变成了恐怖片现场。

          图片转视频:一言难尽


          除了文字生成视频,Stable Video 也提供了图片生成方式。将图片转成视频的功能,在厂商宣传中会被包装成用于“视频制作、网页设计等领域”,那真的可以做到了吗?


          我们在测评之前,就有人说尝试用自己的照片转成视频,结果发现有人脸的图都崩了。本来想着应该崩也崩不到哪里去吧,直到自己试了一下……



          我们找了上面的图片(因为我的帅哥同事拒绝了我的出镜请求),并改成了官方给到的推荐尺寸。我们想象的场景是,Stable Video 可以让人的头发和后边的窗纱飘起来,但结果却被吓到了:人脸的扭曲程度太大了!


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            在把“相机”设置去掉,改成“轨道”后,也不行:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              可以看出,视频生成质量跟那些效果设置其实没有关系,还是模型本身质量决定的。我们非常不推荐用人脸的图片转成视频,会被“惊喜”到。而且,喜欢照相的女孩子可能不会喜欢 Stable Video ~


              那么,对于动物图片的生成效果如何呢?我们找了一张可爱的猫猫图,希望不要被“爆改”。



              为了控制各种变量,这次我们什么效果都没有设置,图片尺寸也是推荐尺寸,结果却是:


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                画面里的猫猫动是动起来了,但是面部依然扭曲了。真是想说:还我可爱的猫猫!


                没有人物的风景图可能是最后的倔强了。我们找了一张花草的图片尝试了下:



                生成的视频是这样的:


                00:00 / 00:00
                  1.0x
                  • 3.0x
                  • 2.5x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  花朵摇曳,虽然没有扭曲了,但总有一种假假的感觉,而且视频清晰度太低了,画面很糊。


                  整体来看,对于 Stable Video,我们还是不建议用有人像的图片生成视频,动物图片慎选,风景图可以尝试,但付费的话就要考虑下了。对于图片生成视频的应用,可能适合对视频质量要求不高的场景。


                  脑洞时刻:


                  在网上看到吐槽去年电视剧里各种神奇运镜的视频,这种感觉确实可以用一张图完成:


                  00:00 / 00:00
                    1.0x
                    • 3.0x
                    • 2.5x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    (开个玩笑,不针对任何人哈~~)

                    性价比?不好意思,也没有


                    细心的读者可能发现,在生成设置的图片里,Stable Video 经常提到“宽高比”的问题。官方推荐的图片分辨率是 1024x576、576x1024 或 768x768。但是,官方从头到尾没有在操作过程里给到用户建议尺寸,所以我们是在几乎测试完成后才看到推荐尺寸,然后为了看效果有没有区别就又重新测试了一遍,结果是:毫无区别,只白白浪费了积分。


                    是的,Stable Video 虽然声称免费,但生成视频是消耗积分的。它给了每个用户 150 的初始积分,其中图片生成视频消耗 10 积分,文字生成视频消耗 11 积分。如果用户不使用文本生成的视频,官方则会将积分退回。另外,每个用户每天都会免费获得一些积分,但获得积分数额未来可能会变。


                    等这些积分消耗完之后,用户就到了付费阶段:10 美元(大约 72 元)可以生成 50 个视频,50 美元(大约 360 元)生成 300 个视频。



                    也就是说,70 多块钱可以生成 3 分钟多的视频,幸亏废片可以退,不然真的一点性价比都没有。


                    想了解更多可以查看:


                    https://www.stablevideo.com/faq


                    结束语


                    不否认 Stability AI 官网呈现出来的效果确实也不错,但随手出片是远远做不到的。目测,文生视频比图片生视频的效果好一些,是有“1 积分的提效”。


                    总的来说,Stability AI 这次免费公测 Stable Video,看起来也像是在为商业化铺垫,想试水让大家为效果付费。但 Stable Video 现在呈现出来的效果,还是差点意思。


                    栏目推荐


                    大模型日新月异,夸得天花乱坠,不如实际用用!

                    AI 前线特别栏目《AI 测评室》营业啦!

                    后续 AI 前线将会定期选择模型产品进行测评,效果直观可见,为大家选择模型做参考。


                    你希望我们测试哪个模型效果?可以评论区或私信告诉我们。如果想让大家看到你的产品,也欢迎来撩,微信:T_demo(请注明来意)



                    2024-03-04 10:284624

                    评论 2 条评论

                    发布
                    用户头像
                    最后一个视频,你是想上天,杀死人吗
                    2024-03-04 13:45 · 四川
                    回复
                    用内娱镜头给IT届一点小小的“震撼”hhh
                    2024-03-04 15:38 · 北京
                    回复
                    没有更多了
                    发现更多内容

                    看一遍就理解:MVCC原理详解

                    Java MySQL 架构 面试 后端

                    聊一聊物联网嵌入式芯片的内容结构

                    华为云开发者联盟

                    物联网 内存 存储 嵌入式 芯片

                    OBServer启动恢复解析

                    OceanBase 数据库

                    oceanbase OceanBase 开源 OceanBase 数据库大赛

                    腾讯面试聊到的几种存储虚拟化

                    hanaper

                    一个Camel Multicast组件聚合策略问题的解决过程

                    华为云开发者联盟

                    消息 Apache Camel Multicast 组件 Multicast 子路径

                    Superior Scheduler:带你了解FusionInsight MRS的超级调度器

                    华为云开发者联盟

                    大数据 hadoop 开源 调度器 FusionInsight MRS

                    上汽零束汽车智能应用创意大赛,初赛作品评选将启动!

                    SOA开发者平台

                    什么是激光雷达的“发动机技术”?一文讲透行业技术壁垒(二)

                    SOA开发者

                    如何绕过WAF和本地防火墙双重防护?

                    网络安全学海

                    网络安全 信息安全 渗透测试 WEB安全 安全漏洞

                    想了解Xtrabackup备份原理和常见问题分析,看这篇就够了

                    华为云开发者联盟

                    MySQL 数据库 华为云 备份 XtraBackup

                    模块八:设计消息队列存储消息数据的MYSQL表格

                    kk

                    架构训练营

                    盘点后端领域的点点滴滴 | 引航计划|后端

                    xcbeyond

                    后端 引航计划 内容合集 技术专题合集

                    在GitHub标星86k+霸榜的某宝Redis核心原理深度实践PDF限时开源!

                    Java 架构 面试 程序人生 编程语言

                    汽车域控制器分类(下):自动驾驶域控制器、车身域控制器

                    SOA开发者

                    【案例】云链智运携手百度OCR,实现货运物流智能化升级

                    百度大脑

                    人工智能

                    如何绘制一个仪表盘

                    Changing Lin

                    android 10月月更

                    架构实战营 毕业设计项目

                    蔸蔸

                    语音翻译器 Tech Support

                    凌天一击

                    什么是激光雷达的“发动机技术”?一文讲透行业技术壁垒 (一)

                    SOA开发者

                    华为云GaussDB(for openGauss) 同城双集群高可用方案正式发布

                    华为云数据库小助手

                    GaussDB GaussDB(for openGauss) 华为云数据库

                    DBeaver

                    soap said

                    开发工具 数据库客户端

                    不可思议!阿里大佬熬夜9天整理出749的HotSpot VM源码笔记

                    Java 架构 面试 程序人生 编程语言

                    第 13 章 -《Linux 一学就会》- Linux文件系统结构

                    学神来啦

                    Linux 运维 linux学习

                    汽车域控制器(上):动力域控制器、底盘域控制器、智能座舱域控制器

                    SOA开发者

                    深度解读 | 《2021年中国企业级 SaaS 行业研究报告》趋势剖析

                    万事ONES

                    SaaS 研发管理工具 ONES

                    操作系统虚拟化VMware, Citrix, Hyper-v比较

                    hanaper

                    厂长来了 | 从个人英雄到软件工程,我们经历了什么

                    万事ONES

                    项目管理 研发管理 SaaS

                    211本+985硕+计算机专业投面百度,坐等一周迎来三面,已拿offer

                    Java 程序员 架构 编程语言

                    “云智一体”系列白皮书智能视频篇来了!

                    百度大脑

                    人工智能

                    上汽零束汽车智能应用创意大赛,初赛作品评选将启动!

                    SOA开发者

                    从坐席到外呼,明道云与品聘云呼叫对接示例

                    明道云

                    试了下 Stable Video,我的建议是不如不用|AI 测评室_AI&大模型_褚杏娟_InfoQ精选文章