人类智慧有许多方面。其中之一是语言智能,使我们能够通过语言与他人交流和连接。但或许更为基础的是空间智能,它让我们理解并与周围的世界互动。空间智能还帮助我们创造,将脑海中的图像转化为现实。从简单的沙堡到高耸的城市,我们利用空间智能进行推理、移动和发明,构建各种各样的事物。
当前,基于文本的图像和视频生成模型与大语言模型(LLMs)共同展示了 AI 在视觉领域的巨大潜力。这些模型已经让人们能够以全新的方式工作和创作,但这仅仅是冰山一角。为了突破现有模型的限制,我们需要具备空间智能的 AI,能够在三维空间和时间中对物体、地点及其互动进行建模和推理。——《World Labs》官方网站
想象一下,上传一张图片,然后就能够进入那个世界并在里面晃悠,这便是 World Labs 正在实现的目标。
World Labs,这家由人工智能先锋李飞飞创立的初创公司,发布了他们的第一个项目:一个能够从单张图片生成类似电子游戏的 3D 场景的 AI 系统。
市面上有很多 AI 系统可以将照片转化为 3D 模型和环境,但 World Labs 的场景特别之处在于——它们是可以互动和修改的。
生成 3D 世界
“(我们的技术)可以让你可以走进任何一张图片,并在 3D 中进行探索,”World Labs 在一篇博客文章中写道。“除了输入的图片,其他所有内容都是生成的。”这些由 AI 生成的场景看起来非常酷炫,虽然有点卡通风格,但任何有键盘和鼠标的人都可以在 World Labs 网站上的演示中体验。
预览体验链接:https://www.worldlabs.ai/blog
这些场景在浏览器中实时渲染,配备了可控的相机效果和可调节的模拟景深(DoF)。景深效果越强,背景物体就会越模糊。“大多数生成型 AI 工具制作的是 2D 内容,比如图片或视频,”World Labs 写道。“转而生成 3D 内容可以提高控制力和一致性。这将改变我们制作电影、游戏、模拟器以及其他数字化物理世界表现形式的方式。”
World Labs 在博客中进一步介绍,生成 3D 场景有许多好处:
持久的现实感:一旦 3D 世界被创建,它将永久存在。如果你转开视线再回来时,场景不会发生变化。
实时控制:生成场景后,你可以实时在其中移动。你可以停留在一朵花的细节上,或是绕过一个角落看看里面有什么。
正确的几何形状:我们生成的世界遵循基本的 3D 几何物理规则,具有真实感和立体感,这与某些 AI 生成的视频的梦幻效果形成鲜明对比。
当然,当前版本还有提升空间。World Labs 的场景还不能完全自由探索——移动范围目前限制在一个小区域内。(试着移出这个区域,你会碰到边界。)还有偶尔的渲染错误,比如物体以不自然的方式融合在一起。
但 World Labs 表示,这只是一个“早期预览”。“我们正在全力提升生成世界的规模和细腻度,并尝试用户与之互动的新方法,”World Labs 在博客中写道。
除了互动场景,World Labs 还计划开发对艺术家、设计师、开发人员、电影制片人和工程师等专业人士有用的工具。他们的目标客户涵盖从视频游戏开发商到电影制片厂。
《夜晚露天咖啡座》是文森特·梵高于 1888 年所创作的油画。
把名画放进去后,就能看到世界名画背后的世界可能是什么样的:
注意,原画中没有的东西都是由模型生成的。
大世界模型还是元宇宙那套吗
“我们已经有能力创建虚拟的互动世界,但这需要数亿甚至数十亿美元和大量的开发时间,”World Labs 联合创始人贾斯汀·约翰逊(Justin Johnson)在最近一期 a16z 播客中说道。“(世界模型)不仅能让你得到一张图片或一个片段,还能生成一个完全模拟的、充满活力的互动 3D 世界。”
TechCrunch 指出,World Labs 的系统属于一种新兴的 AI 类别,称为“大世界模型”(LWMS,Large World Models)。许多此类模型可以模拟游戏和 3D 环境,但常常存在伪影和一致性问题。例如,初创公司 Decart 的 Minecraft 模拟世界模型 Oasis 分辨率较低,并且很快“忘记”关卡的布局。
相比之下,World Labs 的方法确保场景在生成后保持不变,并遵守基本的物理定律。此外,World Labs 的系统还可以为场景添加互动效果和动画,比如更改物体颜色和动态照明背景。
尽管 World Labs 今年才成立,但已经从包括 Andreessen Horowitz(a16z)、阿什顿·库彻(Ashton Kutcher)、英特尔资本(Intel Capital)、AMD Ventures 和埃里克·施密特(Eric Schmidt)在内的投资者那里筹集了 2.3 亿美元的风投。该公司估值超过 10 亿美元,计划在 2025 年推出首款产品。
早前,李飞飞在接受彭博社采访时表示:“我相信空间智能是我未来的指路明灯,它将改变 AI 的发展轨迹。”然而,《连线》杂志的记者指出,World Labs 的愿景与此前一度热炒后迅速退潮的“元宇宙”概念有些相似。对此,World Labs 的创始人解释道,元宇宙之所以未能长久,是因为当时的热潮依托于一些有前景的硬件,却缺乏真正的互动内容,而他们认为,世界模型有望填补这一空白。
参考链接:
https://www.worldlabs.ai/blog
https://techcrunch.com/2024/12/02/world-labs-ai-can-generate-interactive-3d-scenes-from-a-single-photo/
评论