QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

“一句话生成一部电影”将成现实?Meta 推出两款 AI 视频编辑工具,只需文字与图像就能生成动画片段

  • 2023-11-17
    北京
  • 本文字数:3253 字

    阅读完需:约 11 分钟

大小:1.54M时长:08:56
“一句话生成一部电影”将成现实?Meta推出两款AI视频编辑工具,只需文字与图像就能生成动画片段

漫威导演 JoeRusso 曾预测:两年内,AI 能创作出成熟的电影。

 

11 月 16 日,Meta 宣布推出两款 AI 视频编辑工具:Emu Video 与 Emu Edit。

 

其中,Emu Video 可用于视频生成,只需输入标题、图像、图像加描述,Emu Video 就能生成一条 4 秒长的动画片段。Emu Video 生成的片段,还可以用 Emu Edit 编辑工具进行进一步调整,用户同样通过自然语言描述自己需要进行的修改,例如“内容不变,但改为慢动作”,之后就能在 Emu Edit 中查看变化后的效果。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    Meta 表示,目前这项工作还属于纯基础研究,但却有着显而易见的潜在用例。想象一下,如果大家希望即时生成自己的动画大头贴或者 GIF 动图,那绝对会成为群聊中最耀眼的明星——再不必通过搜索引擎来回寻找。或者,不具备任何技术认知的朋友也能轻松编辑自己的照片和图像,把静态照片转化为精致的动画,甚至用它创作出更多全新的内容。

     

    Meta 强调,虽然肯定不足以取代专业艺术家和动画师,但 Emu Video 和 Emu Edit 这类最新技术可以帮助人们以前所未有的方式表达自我,通过更加积极、丰富、动态的方式与他人互动。

    基于 Emu 模型打造,Emu Video 生成的视频足以以假乱真?

     

    据 Meta 介绍,Emu Video 基于 Emu 模型打造。Emu 是 Meta 旗下首款图像生成基础模型,于今年的 Meta Connect 上正式发布。目前,Emu 技术已经在支持 Meta 内部的一系列生成式 AI 体验,包括 Instagram 中那些为照片添加滤镜或背景的 AI 图像编辑工具、以及 Meta AI 中可直接通过提示词为助手应用和群聊场景生成逼真图像的 Imagine 功能。

     

    Meta 在其中提出一种基于扩散模型的文本到视频简单生成方法。这是一套用于视频生成任务的统一架构,能够响应各自足输入形式:纯文本、纯图像以及文本加图像。

     

    Meta 将这个过程分为两个步骤:首先是根据文本提示词生成图像,接下来再根据文本加生成图像进一步输出视频。这种“分解”式的视频生成方法能够提高视频生成模型的训练效率,也证明视频的分解生成方法完全可以通过单一扩散模型来实现。Meta 在其中提出了一系列关键设计决策,例如调整视频扩散的噪声时间表,并配合多段式训练让模型具备了直接生成高分辨率视频的能力。

     

    与此前需要深度级联模型(例如同时使用五种模型生成视频)的方案不同,Meta 的新成果更易于实现,仅使用两个扩散模型即可生成分辨率为 512 x 512、每秒 16 帧、长度为 4 秒的视频。凭借极佳的保真度,很多非专业人士甚至根本无法将其与真实场景区分开来。

     

    评估发现,与之前的方案相比,Meta 新模型生成的视频更受欢迎——96% 的受访者表示 Emu 模型生成的视频质量更高,85% 的受访者觉得它更能忠实反映自己输入的提示词。最后,这套模型还能根据文本提示词对用户提交的图像进行“动画化”处理,且效果同样大大超越之前的同类方案。

     

    据了解,Emu Video 最擅长的,似乎是那些比较简单、且以静态为主的场景。这些场景大多背离照片写实主义,而强调立体主义、动漫、剪纸以及蒸汽朋友等视觉风格。但即使是在 Emu Video 最出色的作品中,AI 生成的老毛病也还是若隐若现——比如奇怪的物理现象、怪异的肢体等等,物体的出现和消失也往往没有什么逻辑。

     

    虽然 Meta 接下来还有很多工作要做,但必须承认,把 Emu Video 生成的影像偷偷插进影视剧中,大多数观众可能很难分辨得出来。

    Emu Edit:通过识别和生成任务精确实现图像编辑

     

    生成式 AI 的应用总是伴随着一整个过程:用户首先输入提示词,之后发现生成的图像与自己的需求有所出入,接下来继续调整提示词直到获得更理想的结果。正因为如此,提示词工程甚至开始成为一种趋势。尽管指令式图像生成模型近年来取得了显著进步,但它们在精确控制能力方面仍然面临很大局限。基于此,Meta 决定推出 Emu Edit,希望用一种新颖的方法简化各类图像处理任务、增强图像编辑的功能性和准确性。

     

    Emu Edit 能够通过指令自由实现各种编辑操作,包括局部与全局编辑、移除和添加背景、颜色与几何形状变换、检测和分割等任务。原有方案在编辑任务中往往存在过度修改等问题,而 Meta 认为 AI 编辑工具的意义不仅在于产出“可信”的图像,更应该专注于精确修改与编辑请求相关的具体像素。

     

    与当前大部分生成式 AI 模型不同,Emu Edit 能够精确遵循指令,确保输入图像中与指令无关的像素继续保持不变。例如,在向图片中的棒球帽添加“欢呼!”字样时,帽子本身应该保持不变。

     

    Meta 的主要思路就是把计算机视觉任务当作图像生成模型的指令,借此对生成和编辑操作施以前所未有的控制。而在一系列针对局部和全局内容的编辑测试之后,Meta 发现 Emu Edit 在精确执行编辑指令方面确实拥有惊人的潜力。

     

    为了训练模型,Meta 开发出一套包含 1000 万合成样本的数据集,每个样本都对应一幅输入图像、待执行任务的描述,以及目标输出图像。这可能是迄今为止体量最大的同类数据集,而 Emu 模型也不负所望,带来了前所未有的高忠实度与图像编辑质量。在评估当中,Emu Edit 显示出优于原有方案的出色性能,在一系列图像编辑任务的定性与定量评估中都创下新的纪录。

    视频生成技术背后的争议

     

    对于 Meta 的这两项最新研究成果,有网友给予了肯定,认为这是一项巨大的进步,人类距离“一句话生成一部电影”将不再遥远,未来已来。

     

    网友 dougmwne 表示,Emu Edit 效果拔群,《星际迷航》里的场景已经由此成为现实。网友 bane 则认为“很科幻”:

     

    随着这些模型的出现,我坚持认为当《星际迷航》里的角色下达“编程”指令时,他们使用的就是经过迭代的提示词,而计算机则通过一系列优化聚合这些提示词,再进一步向曲率模型/全息甲板模拟/传输过滤器/生物床病原体检测器等下达指令,无需做更具体的描述……哎呀,这不就是 NixOS 的声明式构建吗?

    而每当需要对指令进行重新编程的时候,只要添加或变更一些提示词即可实现不同的效果。

    如果角色需要向计算机中添加新数据时,使用新输入数据对基础模型做微调就行。

    所以说……我感觉很科幻、很爽。

     

    也有网友对此表示担忧,AI 如今已经这么厉害了,真的不会取代人类吗?网友 morph123 反问道:为什么这帮搞 AI 研究的最后总要强调“这不会取代人类”?这话他们自己信吗?

     

    如今,视频生成技术早已不再新鲜。不仅 Meta 公司此前做过这方面的尝试,谷歌也有类似的方案。此外,Runway 等一众初创企业甚至开发出了商业服务。

     

    但与此同时,对于视频生成技术的争议也从未停止。一方面,AI 虚假视频的制作和传播屡禁不止,虚假视频的滥用可能触犯法律,如著作权和肖像权等。另一方面,这类生成工具很可能会夺去动画师和艺术家们的饭碗。Meta 和其他生成式 AI 厂商当然会坚称,像 Emu Video 这样的工具是在增强人类艺术家、而非将其彻底取代。但这只是种过于乐观、拒绝面对现实的说辞——面对更低的成本,企业自然会做出更有利于自己的选择。

     

    今年早些时候,Netflix 就在一部三分钟的动画短片中使用了 AI 生成的背景图像。该公司声称,这项技术有助于解决动画行业的所谓劳动力短缺问题。但为什么会造成劳动力短缺?当然是工资太低、工作条件又太过艰苦。有了 AI,企业更没必要改善从业者的待遇了。

     

    其他类似的争议还有,漫威《秘密入侵》片尾字幕的制作方承认使用 AI(主要是文本到图像工具 Midjourney)来生成其中的大部分画面。剧集总监 Ali Selim 认为使用 AI 符合该剧的立意主旨,但大多数艺术家社区和粉丝均表示强烈反对。

     

    未来甚至连人类演员都将被替代。最近,美国电视和广播艺术家联合会(SAG-AFTRA)领导罢工的主要原因之一,就是企业使用 AI 创建数字肖像。出口公司虽然最终同意向演员支付 AI 生成肖像的费用,但随着技术的发展,这种脆弱的平衡是否会被再度打破?答案很可能是肯定的。更糟糕的是,部份 AI 工具往往是用艺术家、摄影师和电影制作人的作品训练而成,而且过程中根本就不会通知或者补偿这些原创者。

     

    参考链接:

    https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

    https://news.ycombinator.com/item?id=38291139

    https://techcrunch.com/2023/11/16/meta-brings-us-a-step-closer-to-ai-generated-movies/

    2023-11-17 15:457708

    评论

    发布
    暂无评论
    发现更多内容

    有一说一,要搞明白优惠券架构是如何演化的,只需10张图!

    程序员小毕

    Java 编程 程序员 架构 面试

    SAP ABAP 解析 excel 文件的函数 TEXT_CONVERT_XLS_TO_SAP 单步执行分析

    汪子熙

    Cloud SAP abap Netweaver 7月月更

    源启数字化:既有模式,还是开源创新?|砺夏行动

    OneFlow

    活动

    Java RMI

    沃德

    Java 程序员 7月月更

    个性潮流与性能兼备,华硕a豆14 Pro搭载全新12代酷睿标压处理器

    科技热闻

    我,AI博士生,在线众筹研究主题

    OneFlow

    研究

    博物馆数字化——数字藏品app开发

    开源直播系统源码

    区块链数字藏品 数字藏品软件开发

    【LeetCode】使数组可以被整除的最少删除次数Java题解

    Albert

    LeetCode 7月月更

    这价格够香!灵耀14 2022影青釉秒杀:12代酷睿+2.8K OLED屏

    科技热闻

    行业分析| 物流对讲

    anyRTC开发者

    人工智能 音视频 物流 调度 快对讲

    执掌英国工程技术学会13载,范纳杰正式退休

    E科讯

    wallys/industrial Wireless AP/IPQ4019 IPQ4029 ,802.11ac /VSSupport IPQ6018 IPQ4019 IPQ4029 802.11ax 802.11ac

    wallys-wifi6

    Wallys/industrial Wireless AP/IPQ6018,IPQ4019,IPQ4029,802.11ax,802.11ac,outdoor ap

    wallys-wifi6

    wallys/industrial Wireless AP/industrial Wireless AP

    wallys-wifi6

    IPQ4019/IPQ4029

    P9力荐!阿里巴巴最新出品776页JDK源码+并发核心原理解析小册

    程序员小毕

    Java 程序员 面试 程序人生 jdk源码

    ES6 类聊 JavaScript 设计模式之结构型模式

    devpoint

    JavaScript 设计模式 桥接模式 适配器模式 7月月更

    云原生 SIG 直播:关于 cni 与 hybridnet 核心技术分享 | 第 35 期

    OpenAnolis小助手

    开源 云原生 直播 sig 龙蜥大讲堂

    即刻报名|如何降低云上数据分析成本?

    Kyligence

    数据分析 智能多维数据库

    数字化时代,如何利用区块链技术赋能乳制品企业?

    旺链科技

    区块链 产业区块链 乳制品

    一年时间过去了,LiveData真的被Flow代替了吗? LiveData会被废弃吗?

    编程的平行世界

    android android jetpack

    Qt | Qt的项目文件.pro文件详解

    YOLO.

    qt 7月月更

    高度关注!2022 开放原子开源峰会最新议程一览

    kk-OSC

    开源 开放原子全球开源峰会

    STM32+ENC28J60+UIP协议栈实现WEB服务器示例

    DS小龙哥

    7月月更

    常用 CSS 代码片段集合,建议收藏

    南城FE

    CSS 前端 CSS语法 7月月更

    LeetCode-94. 二叉树的中序遍历(java)

    bug菌

    Leet Code 7月月更

    java零基础入门-java8新特性(中篇)

    喵手

    Java 7月月更

    git clone出错--必看贴

    坚果

    git Mac git 学习 7月月更

    45W性能释放+2.8K OLED全面屏 华硕灵耀X 14 2022精英气质高效利器

    科技热闻

    Qt|控制QScrollBar显示位置

    中国好公民st

    qt 7月月更

    阿里云技术专家杨泽强:弹性计算云上可观测能力构建

    阿里云弹性计算

    DevOps 可观测性 CI/CD metrics

    mysql进阶(十四) 批量更新与批量更新多条记录的不同值实现方法

    No Silver Bullet

    MySQL 数据库 7月月更 批量更新

    “一句话生成一部电影”将成现实?Meta推出两款AI视频编辑工具,只需文字与图像就能生成动画片段_生成式 AI_凌敏_InfoQ精选文章