免费下载案例集|20+数字化领先企业人才培养实践经验 了解详情
写点什么

OpenAI 的 Sora 注定死路一条!Yann LeCun 火力全开怒喷:这种实现方式“完全没有现实意义”

  • 2024-02-20
    北京
  • 本文字数:3719 字

    阅读完需:约 12 分钟

大小:1.69M时长:09:52
OpenAI的Sora注定死路一条!Yann LeCun火力全开怒喷:这种实现方式“完全没有现实意义”

近日,OpenAI 发布的视频生成模型 Sora 成为全球焦点。与以往只能生成几秒钟视频的模型不同,Sora 可生成长达 60 秒的高清视频。

 

英伟达高级研究科学家 Jim Fan 断言,Sora 是一个数据驱动的物理引擎,是一个可学习的模拟器,或“世界模型”。OpenAI 也声称 Sora 是“扩展视频生成模型是构建物理世界通用模拟器的一条可行之路”。这些说法让很多普通人感到非常恐慌,担心这代表了人工智能已经有能力理解人类真实世界,因此这或许代表着人类末日的开始。

 

而图灵奖得主 Yann LeCun,作为一位“世界模型”的倡导者,他认为 OpenAI 的 Sora 并不理解物理世界,今天他更是直接说 Sora 对“世界模型”的实现方式,注定是死路一条。

 


Yann LeCun 火力全开

 

之前, OpenAI Sora 研发成员 Aditya Ramesh 发布了一个关于一只蚂蚁“在蚁巢内部移动的视角镜头”的视频,但视频里面的蚂蚁只有四条腿。

 


Yann LeCun 随后对其喊话:“Aditya,蚂蚁难道不是有 6 条腿吗?”“作为曾在我实验室待过的学生,我担保他知道蚂蚁有 6 条腿!”

 


4 条腿的蚂蚁的确不符合真实世界的实际情况,Yann LeCun 也认为根据提示词生成看似真实的视频绝不代表系统真的理解物理世界。

 


这样的图像生成跟世界模型的因果预测间仍然存在重大差异。或者说,让视频内容看似合理的空间非常大,视频生成系统只需生成其中“一种”样本即可算作成功。但真实视频的合理连续空间要“小得多”,而且生成其中的代表性图块更是一项极为困难的任务,在涉及各种动作的情况下更是如此。

 

此外,他还强调,这种连续生成不仅成本高昂,而且完全没有现实意义。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    Visualization of Slicing Video Temporal Data — Source: kitasenjudesign


    Visualization of Spacetime Patching (Processing) — Credit: OpenAI (Sora)


    在今天的推文中,他更是直言 Sora 这种通过生成像素来对真实世界建模“不仅是种浪费,而且注定将要失败”,如同现在已经被基本放弃的“合成分析”技术一样。

     

    Yann LeCun 解释说,几十年前,机器学习领域曾经就生成式方法与判断式分类方法的优劣对比展开过一场大辩论。数学家 Vapnik 等机器学习理论研究者明确反对生成式方法,认为生成模型的训练要比分类模型更困难(从样本复杂性角度出发)。总而言之,整个计算机视觉领域普遍认定像素的生成应该从解释潜在变量入手。毕竟在推理过程中,人类就是在根据观察到的像素推断出反映规律的潜在变量。正确的推理方法还涉及优化部分:比如使用对象的 3D 模型并尝试找到能够重现图像的姿态参数。遗憾的是,这个路子一直没能彻底走通,而且速度非常缓慢。

     

    后来,有些人选择了贝叶斯路线,尝试使用贝叶斯推理来推断潜在变量(例如使用变分近似及/或采样)。非参数贝叶斯与潜在狄利克雷分配都在某种程度上主导过文本建模,有些人开始勇敢尝试借此识别图像中的具体对象。但这同样是一场彻头彻尾的失败!

     

    Yann LeCun 认为,如果现在的目标是训练出用于识别或规划真实世界的模型,那么在像素层面进行预测肯定不是什么好主意。

     

    只能说生成技术恰好适用于文本,因为文本内容属于离散的、数量有限的符号。在这种情况下,预测过程中的不确定性更容易处理。相比之下,对高维连续感官输入中的不确定性进行预测则非常困难。

     

    正因为如此,依靠感官输入的生成模型注定将会失败。

     

    Yann LeCun 认为的更好的办法是什么?

     

    作为人类,我们对周遭世界的了解和大部分知识(特别是在童年时代)主要是依靠观察而来。以牛顿运动定律为例,即使是未经任何引导的幼儿或者小动物,也会在多次触碰并观察之后意识到,一切抛掷的物体终将落向地面。是的,只需一点观察,而非耗费几个小时的指导或者阅读上千本学术著作。我们内心深处的世界模型(基于世界心理模型的情境理解能力)完全可以准确预测结果,而且效率非常高。

     

    所以 Yann LeCun 认为实现“世界模型”的方式,应该是让机器智能像人类般学习、建立起周遭世界的内部模型,从而高效学习、适应并制定计划以完成种种复杂的任务。

     

    这也是他提出的 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)的核心特点所在:它并不是在“生成”,而是在表示空间中进行预测。

     

    在他前几天发布的推文结尾,他又给大家安利了一遍 JEPA 的论文和他们的试验结果表:

     

    截图来源:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

     

    备受瞩目的视频 JEPA

     

    V-JEPA 是一种非生成模型,通过预测抽象表示空间中视频的缺失/遮蔽部分来进行学习。这种方法与图像联合嵌入预测架构(I-JEPA)对图像抽象表示的比较(而非直接比较像素本身)有异曲同工之妙。不同于尝试填充每个缺失像素的生成式方法,V-JEPA 能够灵活丢弃各种不可预测的信息,从而将训练与采样效率提高 1.5 至 6 倍。

     

    由于 V-JEPA 采用自监督学习方法,因此可以纯依靠未经标注的数据进行预训练。这些标签仅在预训练之后被用于保证模型能够适应特定任务。事实证明,这种类型的架构比以往模型更加高效,不仅训练需要的标注示例更少、在学习未标注数据方面投入的总工作量也更低。借助 V-JEPA,Meta 在这两项指标上均迎来了改进。

     

    使用 V-JEPA,研究团队遮蔽掉了视频中的大部分内容,借此让模型仅能观察到小部分上下文。之后,再要求预测器填补缺失的空白——请注意,填补过程并非根据实际像素,而是依托表示空间中更抽象的内容描述。

     


    在学习潜在空间中,V-JEPA 通过预测被遮蔽的时空区域来训练视觉编码器。

    遮蔽方法

     

    V-JEPA 的这种理解并非来自对某一特定操作类型的训练;相反,它是在一系列视频之上完成了自监督训练,并借此掌握了大量关于真实世界运行规律的知识。

     

    研究团队还认真设计了遮蔽策略——如果不遮挡视频中的大块区域,而是随机在各处覆盖内容,那么任务就会变得过于简单,导致模型学不到真实世界中的任何复杂规律。

     

    另外需要注意的是,在大多数视频中,对象随时间推移的变化其实相对缓慢。如果只遮蔽特定时刻下视频中的某个部分,而模型仍能观察到紧随其前/其后的内容,任务同样会变得过于简单,导致其无法学习到有趣的知识。因此,研究团队采取一种方法,在空间与时间两个维度上遮蔽视频的部分内容,强迫模型学习并加深对于场景逻辑的理解。

     

    保证在抽象表示空间中进行预测同样非常重要,这样模型才能专注于实际视频内容所反映出的更高级别概念信息,而忽略掉那些对于下游任务意义不大的各类细节。举例来说,如果视频画面中是一棵树,那么就并不需要关心每片叶子的细小运动。

     

    高效预测

     

    V-JEPA 是首个擅长“冻结评估”的视频模型,换句话说,模型的编码器与预测器均可实现自监督预训练,研究人员不必再做具体操作。想让模型掌握一项新技能,只需要额外训练一个小型轻量级专业层、或者在其上训练一个小型网络,整个过程更加高效快速。

     


    少样本冻结评估:将 V-JEPA 与 Kinetics-400 和 Something-Something-v2 等其他视频模型中的冻结评估进行比较,这里我们改变了每套数据集上可用于训练注意力探针的标注示例百分比。我们在几种少样本设置中进行探针训练:分别对应训练集中 5%、10%和 50%的数据,并在每种情况下进行三轮随机比较以获得更稳健的指标,也就是分别对每套模型进行 9 次不同的评估实验。表中列出了官方验证的 K400 与 SSv2 验证集的平均值与标准差。V-JEPA 的标记效率的确高于其他模型,而且可用标注示例数量越少,V-JEPA 相较于其他模型的性能优势也越明显。

     

    以往的生成式模型要求我们进行全面微调,就是说在模型预训练完成之后,如果希望模型能够真正掌握对细粒度动作的识别能力、利用它来处理实际任务,还需要更新所有模型中的参数或者权重。之后,该模型总体上只能执行一类特定任务,而不再适用于其他任务类型。

     

    如果想要引导模型学会执行多种任务,则需要提供不同的数据,并针对新任务对整个模型进行特化。而正如 Meta 在研究中所演示的那样,使用 V-JEPA,我们可以在没有任何标注数据的前提下对模型进行一次预训练、修复相应问题,然后重复利用模型中的相同部分处理多种不同任务,例如动作分类、识别细粒度对象交互及活动定位等。



    V-JEPA 是一种从视频中学习表示的自监督方法,适用于各类下游图像及视频处理任务,且无需调整模型参数。V-JEPA 在图像分类、动作分类及时空动作检测等任务的冻结评估方面,优于以往的视频表示学习方法。

     

    虽然 V-JEPA 中的“V”代表视频,但并不是说它的适用范围就仅限于视频内容。后续 Meta 还将采用其他多模态方法,并认真考虑将音频与视觉效果结合起来。

     

    虽然目前 V-JEPA 还只能在较短的时间维度上发挥作用——比如在不超过 10 秒的视频片段中准确识别不同对象的行为。但 Meta 接下来的另一项研究重点,在于如何调整模型以在更长的时间范围内实现准确预测。

     

    目前的结果证明,Meta 目前可以直接用视频数据训练 JEPA 模型,而不再需要大量监督和介入。它会像婴儿般从视频中学习,凭借被动观察世界来学习有助于理解内容上下文的背景知识。这样,只须配合少量标注数据,就能让模型快速获得执行新任务、识别各种动作的能力。

     

    参考链接:

    https://twitter.com/ylecun/status/1759486703696318935

    https://twitter.com/ylecun/status/1758740106955952191

    https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

     

    2024-02-20 20:577736

    评论 2 条评论

    发布
    用户头像
    这种对Sora的实现方式真是令人深思,看似是技术的巅峰,但是否真的能理解真实世界、生成有意义的内容却值得怀疑。Yann LeCun提到的预测抽象表示空间中视频的缺失部分这种学习方法,确实让人眼前一亮。或许真正的突破在于从一个更抽象的层面进行学习,获得更深入的理解,而非仅止于生成表面内容
    2024-02-26 11:37 · 北京
    回复
    照猫画虎的形式。但是可以以此为铺垫慢慢调整过去。
    2024-03-25 17:01 · 辽宁
    回复
    没有更多了

    不愧是阿里P8架构师总结的Java面试笔记,上线仅七天,Github标星55K

    Java 程序员 架构 面试 后端

    太牛了!同事凭借这份Java面试题1000道手册(pdf)入职了阿里,定级P7

    Java spring 程序员 架构 编程语言

    模块五作业

    Geek_fc100d

    「架构实战营」

    (深入篇)漫游语音识别技术—带你走进语音识别技术的世界

    攻城先森

    深度学习 音视频 nlp 语音识别

    Apache ShenYu源码阅读系列-基于ZooKeeper的数据同步

    子夜2104

    Java 网关 shenyu

    (实战篇)漫游语音识别技术—带你走进语音识别技术的世界

    攻城先森

    深度学习 音视频 nlp 语音识别

    安全逆向分析实战

    网络安全学海

    Linux 网络安全 信息安全 WEB安全 漏洞分析

    后端的另一种打开方式-路由还能这么玩~

    Bob

    微服务 后端 网络 服务 引航计划

    Spark 系列教程(2)运行模式介绍

    Se7en

    40K成功入职:六年开发终获小米Offer(附面经+面试题+答案详解)

    Java spring 程序员

    架构实战营 毕业总结和毕业设计项目

    李东旭

    「架构实战营」

    靠这份GitHub star过万的1121页图解算法成功杀进字节跳动

    Java 架构 面试 程序人生 编程语言

    《Go 开发指南》-管理 Go 环境

    看山

    Effective-go 10月月更

    毕业设计项目

    燕燕 yen yen

    架构是训练营

    (mode4)千万级学生管理系统考试试卷存储方案

    消失的子弹

    架构 云原生

    金九银十一线大厂Java面试题大全(整理版)1000+面试题附答案详解,最全面详细!

    Java 程序员 架构 面试 后端

    这份笔记太牛了!手把手教你从零开始搭建Spring Cloud Alibaba!

    Java 架构 面试 程序人生 编程语言

    让我薪资提升了个新高度!这份阿里核心教程:理解JVM垃圾回收器手册帮了我大忙!

    Java 架构 面试 程序人生 编程语言

    如何评估一个软件的项目费用?

    石云升

    项目管理 管理 引航计划 内容合集 10月月更

    面试进阶必备:“阿里爸爸”高并发秒杀架构设计笔记(全彩版)

    Java 架构 面试 程序人生 编程语言

    微博评论系统架构设计

    guangbao

    引航计划|AI|优质合集手把手带你玩转AI

    Nydia

    AI 引航计划

    12道Zookeeper高频面试题,你顶得住吗?

    Java 架构 面试 分布式 后端

    【LeetCode】字符串中的单词数Java题解

    Albert

    算法 LeetCode 10月月更

    2021年常见面试真题汇总,含了14个技术栈,已助我成功拿到腾讯offer!

    Java 架构 架构师 java面试

    模块六作业

    Geek_fc100d

    「架构实战营」

    这份阿里P8撰写的面试笔记就是逊了!才帮助十几个人圆了大厂梦

    Java 架构 面试 程序人生 编程语言

    架构1期模块九作业

    五只羊

    架构实战营

    7. 简单生成器函数,Pool 实现多进程程序,异常管理,浏览器版本帮助手册

    梦想橡皮擦

    10月月更

    手把手带你做好团队管理|引航计划|管理

    石云升

    团队管理 管理 引航计划 技术专题合集

    华为大佬的“百万级”MySQL笔记,基础+优化+架构一键搞定

    Java 架构 面试 程序人生 编程语言

    OpenAI的Sora注定死路一条!Yann LeCun火力全开怒喷:这种实现方式“完全没有现实意义”_生成式 AI_Tina_InfoQ精选文章