AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

谷歌最强世界模型“硬控”OpenAI 一分钟:智能体交互、替你玩游戏!等等,智能体们早在游戏里 cosplay、交友了!

  • 2024-12-05
    北京
  • 本文字数:4408 字

    阅读完需:约 14 分钟

大小:2.03M时长:11:50
谷歌最强世界模型“硬控”OpenAI一分钟:智能体交互、替你玩游戏!等等,智能体们早在游戏里cosplay、交友了!

“太令人印象深刻了!我想知道这个模型有多大。我注意到他们让它做的第一件事就是与能够控制世界生成的智能体交谈。天哪,甚至机器人也可以在我们工作的时候玩电子游戏!”

 

让网友如此兴奋的模型就是今天 DeepMind 发布的基础世界模型 Genie 2,这个模型能够生成各种可控制动作、可玩的 3D 环境,用来训练和评估具身智能体。基于单个提示图像,人类或 AI 智能体可以使用键盘和鼠标输入来玩它。

 

讲真,OpenAI 这次确实又狙击了谷歌一把。就在领导 Genie 2 项目的 DeepMind 研究科学家 Jack Parker-Holder 刚刚发推公布没多久,Altman 就宣布,从太平洋时间明天上午 10 点开始将进行为期 12 天的 OpenAI 活动,在每个工作日进行一个直播,内容包括最新技术或产品演示、重要发布和一些“小惊喜”。

 

一个预告就让网友开始将话题转向了“满血 o1、Sora、Dall-e 4、芯片计划”等等。但 Hacker News 上对 Genie 2 的讨论非常激烈。“这项研究的真正目标是开发出达到或超越人类对 3D 世界理解的模型——这是迈向 AGI 的关键一步。”还有网友说道,“演示非常棒。我想当我的孩子进入电子游戏黄金年龄时(再过个 5 年左右),我们将进入互动故事叙述的新黄金时代。”有网友说道。

 

没错,Genie 2 的重要应用场景就是游戏,其具备对象交互、复杂的角色动画、物理以及建模并预测其他智能体行为的能力。DeepMind 也承认了这点:“从我们早期与 Atari 游戏的合作,到 AlphaGo 和 AlphaStar 等突破性成果,再到我们与游戏开发者合作研究通用智能体,游戏一直是我们研究的重心。”

 

DeepMind 表示,训练更通用的具身智能体的统瓶颈在于缺乏足够丰富和多样化的训练环境。Genie 2 是在大规模视频数据集上进行训练的,模型使用Imagen 3 生成的单个图像进行提示。整个过程中,一个人或智能体提供键盘和鼠标操作,Genie 2 模拟下一个观察结果。Genie 2 可以生成长达一分钟的一致性世界,大多数示例持续 10-20 秒。

DeepMind 狂发演示,网友买账了?

 

话不多说,我们先看下官方给出的模型效果示例:

 

  • 操作控件:智能地响应键盘上的按键操作,识别角色并正确移动,例如模型必须清楚箭头应该移动的是机器人而不是树木或云朵。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • 生成不同的“反事实体验”

     

    下面的每个视频都从同一帧开始,但人类玩家采取的操作是完全不同的。“这意味着可以从同一初始帧生成不同的轨迹,这对于训练智能体非常有价值”

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      • 超长记忆:可以记住不再出现在视野中的部分世界,再次可见时能够准确地呈现它们。

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        • 持续生成新内容:动态生成新的合理内容,并在长达一分钟的时间内保持世界的一致性。

         

        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          • 多样化环境:创建不同的视角,例如第一人称视角、等距视图或第三人视角驾驶视频。

           

          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            • 创建复杂的 3D 结构

             

            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00

               

              Genie 2 可以为不同类型的角色制作动画来执行不同的活动。值得注意的是,它可以模拟其他智能体,甚至与其进行复杂的交互。

              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                Genie 2 还模拟各种物体的相互作用,例如爆破气球、开门和射击炸药桶。可以模拟各种物理效果,如水、烟雾、重力、灯光反射。此外,还通过现实世界的图像进行提示生成虚拟环境,比如风中摇曳的草或河中流动的水。

                 

                00:00 / 00:00
                  1.0x
                  • 3.0x
                  • 2.5x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  Genie 2 还能快速创建各种交互式体验原型,方便研究人员快速实验新的环境、训练和测试具体的 AI 智能体。得益于 Genie 2 的分布式泛化能力,概念艺术和绘图可以转化为完全交互式的环境。因此,艺术家和设计师也可以用它快速创建原型,加速环境设计过程。

                   

                  通过使用 Genie 2 快速创建丰富多样的环境供 AI 智能体使用,研究人员还可以生成智能体在训练期间未曾见过的评估任务。下面是 DeepMind 与游戏开发者合作开发的 SIMA 智能体示例,首先 Imagen 3 生成图像:



                  提示词:A screenshot of a third-person open world exploration game. The player is an adventurer exploring a forest. There is a house with a red door on the left, and a house with a blue door on the right. The camera is placed directly behind the player. #photorealistic #immersive

                   

                  SIMA 智能体旨在通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。Genie 2 生成一个有两扇门(一扇蓝门和一扇红门)的 3D 环境,并向 SIMA 智能体提供打开每扇门的指令。在此示例中,SIMA 通过键盘和鼠标输入控制化身,而 Genie 2 生成游戏帧。

                   

                  00:00 / 00:00
                    1.0x
                    • 3.0x
                    • 2.5x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    提示:Open the blue door

                     

                    另外,SIMA 可以帮助评估 Genie 2 的功能。研究人员通过指示 SIMA 环顾四周并探索房屋后面来测试 Genie 2 生成一致环境的能力。

                     

                    00:00 / 00:00
                      1.0x
                      • 3.0x
                      • 2.5x
                      • 2.0x
                      • 1.5x
                      • 1.25x
                      • 1.0x
                      • 0.75x
                      • 0.5x
                      网页全屏
                      全屏
                      00:00


                      提示:Go behind the house

                       

                      当然也有网友对这个模型表达了 Genie 2 质疑:


                      这是一项很棒的技术,但人们可能会误以为它对游戏开发有用,但事实上它毫无用处。

                      游戏是关于互动的,而这一点恰恰与之背道而驰。你不希望模型推断机制,设计师需要深入控制它的每个方面。

                       

                      人们提到过用它来制作游戏原型,但这完全没有意义。用它来制作原型到底意味着什么?它不会帮助你从机械或视觉上弄清楚任何事情。它只是“如果你是一个世界中的化身会怎么样?”当你在随机环境中使用随机角色控制器四处奔跑后,你会做什么?

                       

                      我认为其中最有用的部分是世界生成部分,而不是机制推理部分。

                       

                      另外,DeepMind 对 Genie 2 的技术细节描述过于简单,并不能满足开发者的好奇:Genie 2 是一个自回归的潜在扩散模型,在通过自编码器后,视频中的潜在帧被传递给一个大型的 transformer 动力学模型。Genie 2 可以逐帧地自回归采样,并使用无分类器引导来提高动作的可控性。



                      此外,DeepMind 表示还开发了一个可以实时运行的蒸馏版本的 Genie 2,但输出质量会有所降低。

                       

                      智能体已经在游戏里交上朋友了

                       

                      Genie 2 支持的与智能体互动实际上还是初级的。在开放世界游戏平台《我的世界》上进行的一个实验中,智能体已经可以开发工作岗位、共享文化模因(meme)、就税收改革进行投票,甚至传播宗教。

                       

                      这项实验最多时有 1000 个软件智能体使用 LLM 进行交互。只需通过文本提示,这些智能体就能发展出一系列不同的个性特征、偏好和专业角色,而无需创造角色的人做进一步的输入。

                       

                      这项工作由 AI 初创公司 Altera 完成。Altera 创始人 Robert Yang 辞去了麻省理工学院计算神经科学助理教授的职位,创办了这家公司。对他来说,这次演示仅仅是个开始。他认为,这是迈向大规模 “AI 文明”的第一步,“当我们真正拥有可以大规模协作的自主智能体时,AI 的真正力量才会被释放出来。”

                       

                      受斯坦福大学研究员 Joon Sung Park 启发,Yang 在 2023 年发现,当 25 个自主 AI 智能体在一个基本的数字世界中自由互动时,会产生和人类类似的惊人行为。“他的论文一发表,我们下一周就着手开始研究了。六个月后,我就从麻省理工学院辞职了。”Yang 说道。

                       

                      Yang 想把这个想法发挥到极致,“我们想突破 AI 智能体在群组中自主行动的极限"。

                       

                      Altera 迅速从投资者那里筹集了超过 1100 万美元的资金,投资者包括 A16Z 和谷歌前首席执行官 Eric Schmidt 新创立的科技风投公司。今年早些时候,Altera 发布了他们的第一个演示:一个 AI 控制的角色在《我的世界》中与人类玩家并肩作战。

                       

                      在 Altera 的新实验项目“Sid”中,模拟 AI 智能体配备了由多个模块组成的“大脑”。一些模块基于 LLM,设计用来完成特定的任务,例如响应其他智能体、说话或计划智能体的下一步行动。

                       


                      开始时,他们在《我的世界》中测试了包含约 50 个智能体的群组,并观察它们之间的交互。在 12 个游戏日(现实世界的 4 个小时)里,智能体们开始做出一些有趣的突现行为,例如一些智能体变得非常善于交际,并与其他角色建立了许多联系,而另一些智能体则显得比较内向。

                       

                      随着互动的继续,每个智能体的 “好感度 ”评级(由智能体自己测量)也在随时间变化。这些智能体能够跟踪社交线索并做出反应:在一个场景中,一个负责向饥饿者分发食物的 AI 厨师向它认为最重视它的人分发了更多的食物。

                       

                      在一个涉及 30 个智能体的系列模拟中,出现了更多和人类类似的行为。

                       

                      开始时,所有智能体的个性和总体目标都是一样的——创建一个高效的村庄,保护社区免受游戏中其他生物的攻击。它们在没有任何提示的情况下,自发地在社区中发展出了专门的角色,包括建筑工人、卫兵、商人和探险家。一旦智能体开始专业化,它在游戏中的行为就开始体现它的角色功能,例如艺术家会花更多的时间采花、农民会收集种子,卫兵则会建造更多的栅栏。

                       

                      “我们惊奇地发现,如果放入正确的大脑,它们就能产生真正的突现行为。我们知道人类会有这样的行为,但并不曾想机器也会有。”Yang 说道。

                       

                      Yang 的团队还测试了智能体能否遵守整个社区的规则。他们创建了一个具有基本税法的世界,并允许智能体投票改变游戏中的税收制度。按人类提示支持或反对征税的智能体能够影响周围其他智能体的行为,以至于它们会根据与谁互动来投票减少或增加税收。

                       

                      随后,研究小组不断扩大规模。在不出现故障的情况下,他们将每个模拟中的智能体数量提高到《我的世界》服务器所能处理的上限,有时甚至能同时处理 1000 个智能体。

                       

                      在 Altera 的一个涉及 500 个智能体的模拟中,他们观察了智能体们如何自发地提出并在同伴中传播文化模因(例如对恶作剧的喜爱或对生态问题的兴趣)。研究小组还让一小部分智能体在游戏世界的不同城镇和农村地区传播(模仿的)宗教——帕斯塔法里教,并观察这些帕斯塔法里教牧师如何让许多与他们互动的智能体皈依。这些皈依者会继续向游戏世界中附近的城镇传播帕斯塔法里教。

                       

                      这些智能体的行为方式看起来非常逼真,但它们的行为只是将 LLM 从人类创建的数据中学习到的模式和 Altera 的系统相结合。该系统会将这些模式转化为情景感知动作,如拿起工具或与另一个智能体互动。Altera 公司联合创始人 Andrew Ahn 表示:“我们的收获是,LLM 拥有足够复杂的人类社会动力学模型,‘能够’反映这些人类行为。”



                      换句话说,这些数据使它们能够很好地模仿人类行为,但它们绝不是 “活的”。

                       

                      但 Yang 有更宏伟的计划。Altera 下一步计划进军 Roblox(多人在线创作游戏),但 Yang 希望最终能超越游戏世界。他的最终目标是创造一个世界,人类不仅能与 AI 角色一起游戏,还能在日常生活中与它们互动。他的梦想是创造出大量的 “数字人类”,它们会真的关心我们,与我们一起工作,帮助我们解决问题,并让我们乐在其中。“我们希望创造出能够真正爱人类的智能体(就像小狗那样爱人类)。”

                       

                      “AI 可能会爱上我们”的观点在这个领域中颇有争议。许多专家认为,利用现有技术不可能在机器中再现情感。

                       

                      Julian Togelius 是游戏测试公司 Modl.ai 的人工智能资深专家,他表示自己喜欢 Altera 的工作,主要是因为它能让我们在模拟中研究人类行为。但是,这些模拟的智能体能学会关心我们、爱我们,或者变得有自我意识吗?Togelius 认为不会。“没有理由相信在某个地方的 GPU 上运行的神经网络会有任何经验。”他说道。

                       

                      参考链接:

                      https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

                      https://www.technologyreview.com/2024/11/27/1107377/a-minecraft-town-of-ai-characters-made-friends-invented-jobs-and-spread-religion

                      2024-12-05 16:017588

                      评论

                      发布
                      暂无评论

                      淘宝/天猫商品详情API接口在电商数据同步与实时更新中的实践

                      技术冰糖葫芦

                      API Explorer api 货币化 API 文档 pinduoduo API

                      win版Alpaca(PS图像智能生成插件) v2.9.2特别版

                      iMac小白

                      IPQ5332 vs. IPQ4019: Optimizing WiFi for Manufacturing Plants

                      wallyslilly

                      IPQ4019 IPQ5332

                      win版Xara Web Designer+(网页设计制作) v24.2.0特别版

                      iMac小白

                      win版Free YouTube Download(YouTube视频下载助手) v4.4.6.723 激活版

                      iMac小白

                      Oracle向YashanDB迁移的丝滑体验

                      YashanDB

                      yashandb 崖山数据库 崖山DB

                      Gartner报告:腾讯云大数据助力企业实现 AI 原生应用落地

                      腾讯云大数据

                      腾讯云

                      win版InnoExtractor(Inno解包工具) v8.0.0.603 中文版

                      iMac小白

                      win版Resolume Arena(VJ音视频软件) v7.21.2特别版

                      iMac小白

                      win版Resolume Avenue(专业级的VJ调试软件) v7.21.2.37990 (x64)特别版

                      iMac小白

                      In-depth analysis of IPQ4028 and IPQ4029 chips: medium and high-end network processors

                      wifi6-yiyi

                      wifi ipq4029

                      37GAMES Nova(AI-CodeReview)介绍

                      三七互娱后端技术团队

                      AI CodeReview

                      软件测试学习笔记丨Jenkins job配置

                      测试人

                      软件测试

                      win版Free YouTube to MP3 Converter(YouTube视频转MP3工具) v4.4.6.723 特别版

                      iMac小白

                      云启AI,数领未来|Zilliz 华北地区高层闭门会圆满结束

                      Zilliz

                      程序员 AI Milvus Zilliz 向量数据库

                      Adobe Illustrator 和 Photoshop 迎来新 AI 功能;马斯克将训练全球最强 AI丨 RTE 开发者日报

                      声网

                      win版Xara Photo & Graphic Designer+ (图像处理与图像绘制) v24.2特别版

                      iMac小白

                      win版LRTimelapse Pro(延迟摄影后期渲染) v7.0.0 特别版

                      iMac小白

                      Claude 3.5、GPT-4o最新系统指令大揭秘!

                      蓉蓉

                      Claude gpt4o

                      观测云加入华为云「新加坡云联盟」,引领亚太创新潮流

                      观测云

                      监控

                      什么是企业全历史行为数据?为什么它是ToB大客户营销的最佳助手?

                      客户在哪儿AI

                      ToB营销 ToB获客 大客户营销 企业全历史行为数据

                      体育赛事直播APP开发:新增直播回放功能增强用户吸引和留存

                      软件开发-梦幻运营部

                      美航通过 NocoBase 节省了 70% 的物流系统升级成本

                      NocoBase

                      开源 系统设计 低代码 无代码开发

                      CX1概念车空气动力学设计,打造典型“美式肌肉车”风格

                      Altair RapidMiner

                      人工智能 汽车 仿真 车企数字化 altair

                      求职季来了,让通义灵码陪你高效备战

                      阿里巴巴云原生

                      阿里云 云原生 通义灵码

                      Windows10+vs 2017中创建WEB API教程

                      幂简集成

                      Windows 10 API web api

                      win版Ableton Live 12 Suite (音乐创作软件) v12.0.15 特别版

                      iMac小白

                      Kmesh v0.4发布!迈向大规模 Sidecarless 服务网格

                      华为云开发者联盟

                      云计算 云原生 华为云开发者联盟 企业号2024年7月PK榜

                      线上交流会预告!和鲸科技社区合伙人唐铭分享“学科+AI”课程搭建思路

                      ModelWhale

                      AI 直播 教学 分享会

                      NFTScan 浏览器现已支持 .mint 域名搜索功能!

                      NFT Research

                      blockchain NFT NFT\

                      数据分析新贵——DuckDB入门

                      三七互娱后端技术团队

                      数据分析 duckdb

                      谷歌最强世界模型“硬控”OpenAI一分钟:智能体交互、替你玩游戏!等等,智能体们早在游戏里cosplay、交友了!_AI&大模型_褚杏娟_InfoQ精选文章