写点什么

试了下 Stable Video,我的建议是不如不用|AI 测评室

  • 2024-03-04
    北京
  • 本文字数:3251 字

    阅读完需:约 11 分钟

试了下 Stable Video,我的建议是不如不用|AI 测评室

去年 11 月,人工智能初创公司 Stability AI 首次推出了 Stable Video,这款模型基于之前发布的 Stable Diffusion 文本转图片模型进行延伸,能够通过现有图片生成视频,是当时市面上少有的能够生成视频的 AI 模型之一。


当时,Stability AI 在 GitHub 上发布了模型代码,并在 HuggingFace 上发布了权重,有硬件能力和相关技术的用户可以在本地下载和运行。


近日,Stable Video 正式开放公测,这对于那些没有强大的 GPU 或没有足够的技术能力来设置的人来说无疑是个好消息,而且内测期间的 Stable Video 还可以免费使用。另外,尽管大家都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测,因此 Stable Video 公测着实也吸引了一波关注。


那它的效果到底如何呢?

文生视频:恭喜及格


相信很多人都见过 Sora 刚发布时候展示的这个 60 秒视频,无数人都被视频里场景的真实性震撼到了:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    Sora 虽然没有面向公众开放,但其主创团队一直在 X 上发出最新生成的视频。Sora 作者 Tim Brooks 最新的一个视频甚至让好莱坞导演表示,直接搁置了自己影视工作室 8 亿美元的预告计划。


    虽然 Sora 在视频生成上独树一帜,但之前在这个领域耕耘的公司并不甘心落后。首先,我们看看影响了 OpenAI GPT-4 进程的 Stability AI 能做到什么程度。


    为避免提示词这个变量带来的影响,我们与上面 Sora 视频相同的提示词来生成视频。整个操作流程很简单:输入提示词后,它会生成四个相似的图片,从中选择一个后,再选择一个简单的效果后就可以生成视频了。



    最后, Stable Video 生成的视频如下:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      我们把原来的提示词解构成以下 12 个要素:时尚女人、东京街道、霓虹灯、黑色皮夹克、红色长裙、黑色靴子、黑色钱包、太阳镜、口红、走路、反光道路和行人走动, Stable Video 完成了 8 个,“红色长裙、黑色靴子、黑色钱包、走路”四个没有完成,其中“红色长裙、黑色钱包”都发生了交叉理解,“黑色靴子和走路”完全没有体现。


      从画面来看,人物乍看之下没有什么硬伤,镜头效果是在的,背景也做了虚化处理。但画面分辨率太低导致看起来就像是糊了,尤其是画面边缘部分。另外,人物的头发抠图感也比较重。


      我们再看看另一家独角兽 Runway AI 用同一组提示词会生成什么样的视频。我们选择了免费的 Runway Gen-2 ……


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        同样,先看下提示词的完成度。“红色长裙、黑色靴子、黑色钱包、太阳镜、走路、行人走动”这 6 个要素没有完成,其中靴子颜色错了,其他的则是完全没有出现。


        从画面看,这个视频着实缺乏真实感,很漫画风,整个环境跟选择的“电影效果”似乎没有任何关系。人物也很模糊,“口红”要素有些看不出来,关键的是那个“扭头”既突兀又吓人,整体观感不太好。


        Pika 在去年 11 月正式发布 Pika 1.0 后风靡一时,其创始人郭文景也被媒体各种曝光。Pika 1.0 也被称作是 Runway Gen-2 的最强竞品。那对于现在的 Pika 来说,这段提示词能生成什么样的视频?我们也尝试了下:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          提示词完成度方面,“红色长裙、黑色钱包、太阳镜、口红和走路”这 5 个要素没有完成,裙子长度和颜色错误,钱包颜色也错了,“太阳镜、口红、走路”则完全没有出现。


          画面有些赛博朋克风,画面只有一个女人的背影,”太阳镜、口红”这些其实暗示了是人物正面,Pika 并没有 get 到这一点。另外,Pika 背景处理其实比 Stable Video、Runway 好一些,但路过的车是最大失误,行驶后的虚影没有处理好,可以看到 6 个车轮。


          综合上面四个产品,我们针对生成的视频做了纬度评分:



          在视频生成的速度方面,Stable Video 耗时相对较长,大概用了不到一分钟,Runway Gen-2、Pika 相对少一些。根据亲自体验了 Sora 的彭博社说法,Sora 的等待时间可能更久:


          与使用 OpenAI 的 Dall-E 3 生成单个图像相比,Sora 还需要更多的时间和计算能力来生成每个视频。OpenAI 不会准确说明 Sora 处理每个请求需要多长时间,但 Peebles 说这“绝对不是即时的”。“你甚至可以用等待的时间去吃个零食”,OpenAI 研究科学家 Bill Peebles 说道。


          另外,对于 Sora 生成的视频质量,或许用户测试的随意测试的结果也不会像内部人员发出来的那么惊艳。在彭博社博实测 Sora 的视频里,也出现了明显的错误。


          那么,大家认为这四个模型在文成视频方面的差距有多大呢?


          另外,我们也测试了 Stable Video 的中文理解能力,结论是:千万不要用中文提示词!



          我们用上述中文描述让 Stable Video 生成一个视频,没有添加任何效果。结果,除了与“少女”关键词相关外,其他可以说是毫无关系。而且,最后一闪而过的头像,瞬间将视频变成了恐怖片现场。

          图片转视频:一言难尽


          除了文字生成视频,Stable Video 也提供了图片生成方式。将图片转成视频的功能,在厂商宣传中会被包装成用于“视频制作、网页设计等领域”,那真的可以做到了吗?


          我们在测评之前,就有人说尝试用自己的照片转成视频,结果发现有人脸的图都崩了。本来想着应该崩也崩不到哪里去吧,直到自己试了一下……



          我们找了上面的图片(因为我的帅哥同事拒绝了我的出镜请求),并改成了官方给到的推荐尺寸。我们想象的场景是,Stable Video 可以让人的头发和后边的窗纱飘起来,但结果却被吓到了:人脸的扭曲程度太大了!


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            在把“相机”设置去掉,改成“轨道”后,也不行:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              可以看出,视频生成质量跟那些效果设置其实没有关系,还是模型本身质量决定的。我们非常不推荐用人脸的图片转成视频,会被“惊喜”到。而且,喜欢照相的女孩子可能不会喜欢 Stable Video ~


              那么,对于动物图片的生成效果如何呢?我们找了一张可爱的猫猫图,希望不要被“爆改”。



              为了控制各种变量,这次我们什么效果都没有设置,图片尺寸也是推荐尺寸,结果却是:


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                画面里的猫猫动是动起来了,但是面部依然扭曲了。真是想说:还我可爱的猫猫!


                没有人物的风景图可能是最后的倔强了。我们找了一张花草的图片尝试了下:



                生成的视频是这样的:


                00:00 / 00:00
                  1.0x
                  • 3.0x
                  • 2.5x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  花朵摇曳,虽然没有扭曲了,但总有一种假假的感觉,而且视频清晰度太低了,画面很糊。


                  整体来看,对于 Stable Video,我们还是不建议用有人像的图片生成视频,动物图片慎选,风景图可以尝试,但付费的话就要考虑下了。对于图片生成视频的应用,可能适合对视频质量要求不高的场景。


                  脑洞时刻:


                  在网上看到吐槽去年电视剧里各种神奇运镜的视频,这种感觉确实可以用一张图完成:


                  00:00 / 00:00
                    1.0x
                    • 3.0x
                    • 2.5x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    (开个玩笑,不针对任何人哈~~)

                    性价比?不好意思,也没有


                    细心的读者可能发现,在生成设置的图片里,Stable Video 经常提到“宽高比”的问题。官方推荐的图片分辨率是 1024x576、576x1024 或 768x768。但是,官方从头到尾没有在操作过程里给到用户建议尺寸,所以我们是在几乎测试完成后才看到推荐尺寸,然后为了看效果有没有区别就又重新测试了一遍,结果是:毫无区别,只白白浪费了积分。


                    是的,Stable Video 虽然声称免费,但生成视频是消耗积分的。它给了每个用户 150 的初始积分,其中图片生成视频消耗 10 积分,文字生成视频消耗 11 积分。如果用户不使用文本生成的视频,官方则会将积分退回。另外,每个用户每天都会免费获得一些积分,但获得积分数额未来可能会变。


                    等这些积分消耗完之后,用户就到了付费阶段:10 美元(大约 72 元)可以生成 50 个视频,50 美元(大约 360 元)生成 300 个视频。



                    也就是说,70 多块钱可以生成 3 分钟多的视频,幸亏废片可以退,不然真的一点性价比都没有。


                    想了解更多可以查看:


                    https://www.stablevideo.com/faq


                    结束语


                    不否认 Stability AI 官网呈现出来的效果确实也不错,但随手出片是远远做不到的。目测,文生视频比图片生视频的效果好一些,是有“1 积分的提效”。


                    总的来说,Stability AI 这次免费公测 Stable Video,看起来也像是在为商业化铺垫,想试水让大家为效果付费。但 Stable Video 现在呈现出来的效果,还是差点意思。


                    栏目推荐


                    大模型日新月异,夸得天花乱坠,不如实际用用!

                    AI 前线特别栏目《AI 测评室》营业啦!

                    后续 AI 前线将会定期选择模型产品进行测评,效果直观可见,为大家选择模型做参考。


                    你希望我们测试哪个模型效果?可以评论区或私信告诉我们。如果想让大家看到你的产品,也欢迎来撩,微信:T_demo(请注明来意)



                    2024-03-04 10:284495

                    评论 2 条评论

                    发布
                    用户头像
                    最后一个视频,你是想上天,杀死人吗
                    2024-03-04 13:45 · 四川
                    回复
                    用内娱镜头给IT届一点小小的“震撼”hhh
                    2024-03-04 15:38 · 北京
                    回复
                    没有更多了
                    发现更多内容

                    宣布推出适用于 Amazon DynamoDB 的增量导出到 S3

                    亚马逊云科技 (Amazon Web Services)

                    S3 API 云存储服务 Amazon DynamoDB

                    luchysheet升级版univer产品介绍会

                    梦数技术团队

                    typescript 前端 Vue3 Typescript

                    华为云CodeArts Pipeline常见问答汇总

                    华为云PaaS服务小智

                    华为云

                    【案例分享】 小鹅通|渐进式拥抱 DevOps

                    CODING DevOps

                    DevOps

                    诚邀报名 | GPT驱动的新程序员时代,开发者如何编程?

                    开放原子开源基金会

                    Java 开源 程序员 开发者 算法

                    AI浪潮下,大模型如何在音视频领域运用与实践?

                    不在线第一只蜗牛

                    人工智能 AI 音视频 大模型

                    小红书可观测 Metrics 架构演进,如何实现数十倍性能提升?

                    小红书技术REDtech

                    云原生 可观测性

                    19家游戏伙伴参加鸿蒙原生游戏合作仪式,与华为游戏中心一起推动产业自主创新和高质量发展

                    新消费日报

                    AI大模型驱动的教育变革与实践

                    EquatorCoco

                    人工智能 AI 教育 大模型

                    【教程】源代码加密、防泄密软件

                    雪奈椰子

                    技术写作者所需的关键技能和知识

                    小万哥

                    技术 程序人生 写作 软件开发 作者

                    管理 Kubernetes 集群这3年,我踩过的十个坑

                    高端章鱼哥

                    Kubernetes 计算机

                    项目实战接口开发SpringBoot

                    不在线第一只蜗牛

                    springboot 项目开发 区块链项目开发

                    Go 与 Rust:现代编程语言的深度对比

                    互联网工科生

                    Go rust

                    亮相CCF中国软件大会,天翼云助力千行百业搭上“数字快车”

                    天翼云开发者社区

                    人工智能 CCF

                    华为云CodeArts Repo常见问答汇总

                    华为云PaaS服务小智

                    华为云

                    日志 | AI工程化部署

                    AIWeker

                    c AI AI工程化部署

                    软通咨询彭智勇(上):探索供应链金融创新路径,驱动产业破局

                    软通咨询

                    数字化转型 供应链金融 数字化咨询 管理咨询

                    行业唯一!百度上榜“2023年度中国数据管理十大名牌企业”

                    百度安全

                    点燃数字引擎,天翼云助力汽车行业云上加速跑!

                    天翼云开发者社区

                    人工智能 数字化转型 汽车

                    凝心聚力 共赢计算新时代 ——2023计算产业生态大会在京圆满举办

                    彭飞

                    诚邀报名|聚焦项目管理和社区协作,解读开源治理前沿见解和最佳实践

                    开放原子开源基金会

                    Java 开源 程序员 开发者 算法

                    JVM调优

                    快乐非自愿限量之名

                    测试 JVM 调优

                    5种容器内指定特定域名解析结果的方式

                    华为云开发者联盟

                    容器 云原生 华为云 域名解析 华为云开发者联盟

                    Axie Infinity 之后,Ronin 的潜力何在?

                    Footprint Analytics

                    区块链 以太坊 Web3 游戏 Ronin

                    这就是univer

                    梦数技术团队

                    typescript 前端 React Hydrate Vue3 Typescript

                    理解Mysql索引原理及特性

                    快乐非自愿限量之名

                    MySQL 开发 检索 检索引擎

                    试了下 Stable Video,我的建议是不如不用|AI 测评室_AI&大模型_褚杏娟_InfoQ精选文章