写点什么

AI 绘画 out 了?「AI 教母」李飞飞的新 AI 直接造 3D 世界,一张图就够!

  • 2024-12-03
    北京
  • 本文字数:2000 字

    阅读完需:约 7 分钟

AI 绘画 out 了?「AI 教母」李飞飞的新 AI 直接造 3D 世界,一张图就够!

人类智慧有许多方面。其中之一是语言智能,使我们能够通过语言与他人交流和连接。但或许更为基础的是空间智能,它让我们理解并与周围的世界互动。空间智能还帮助我们创造,将脑海中的图像转化为现实。从简单的沙堡到高耸的城市,我们利用空间智能进行推理、移动和发明,构建各种各样的事物。


当前,基于文本的图像和视频生成模型与大语言模型(LLMs)共同展示了 AI 在视觉领域的巨大潜力。这些模型已经让人们能够以全新的方式工作和创作,但这仅仅是冰山一角。为了突破现有模型的限制,我们需要具备空间智能的 AI,能够在三维空间和时间中对物体、地点及其互动进行建模和推理。——《World Labs》官方网站


想象一下,上传一张图片,然后就能够进入那个世界并在里面晃悠,这便是 World Labs 正在实现的目标。


World Labs,这家由人工智能先锋李飞飞创立的初创公司,发布了他们的第一个项目:一个能够从单张图片生成类似电子游戏的 3D 场景的 AI 系统。



市面上有很多 AI 系统可以将照片转化为 3D 模型和环境,但 World Labs 的场景特别之处在于——它们是可以互动和修改的

生成 3D 世界


“(我们的技术)可以让你可以走进任何一张图片,并在 3D 中进行探索,”World Labs 在一篇博客文章中写道。“除了输入的图片,其他所有内容都是生成的。”这些由 AI 生成的场景看起来非常酷炫,虽然有点卡通风格,但任何有键盘和鼠标的人都可以在 World Labs 网站上的演示中体验


预览体验链接:https://www.worldlabs.ai/blog



这些场景在浏览器中实时渲染,配备了可控的相机效果和可调节的模拟景深(DoF)。景深效果越强,背景物体就会越模糊。“大多数生成型 AI 工具制作的是 2D 内容,比如图片或视频,”World Labs 写道。“转而生成 3D 内容可以提高控制力和一致性。这将改变我们制作电影、游戏、模拟器以及其他数字化物理世界表现形式的方式。”


World Labs 在博客中进一步介绍,生成 3D 场景有许多好处:

  • 持久的现实感:一旦 3D 世界被创建,它将永久存在。如果你转开视线再回来时,场景不会发生变化。

  • 实时控制:生成场景后,你可以实时在其中移动。你可以停留在一朵花的细节上,或是绕过一个角落看看里面有什么。

  • 正确的几何形状:我们生成的世界遵循基本的 3D 几何物理规则,具有真实感和立体感,这与某些 AI 生成的视频的梦幻效果形成鲜明对比。


当然,当前版本还有提升空间。World Labs 的场景还不能完全自由探索——移动范围目前限制在一个小区域内。(试着移出这个区域,你会碰到边界。)还有偶尔的渲染错误,比如物体以不自然的方式融合在一起。

但 World Labs 表示,这只是一个“早期预览”。“我们正在全力提升生成世界的规模和细腻度,并尝试用户与之互动的新方法,”World Labs 在博客中写道。



除了互动场景,World Labs 还计划开发对艺术家、设计师、开发人员、电影制片人和工程师等专业人士有用的工具。他们的目标客户涵盖从视频游戏开发商到电影制片厂。


《夜晚露天咖啡座》是文森特·梵高于 1888 年所创作的油画。


把名画放进去后,就能看到世界名画背后的世界可能是什么样的:


注意,原画中没有的东西都是由模型生成的。


大世界模型还是元宇宙那套吗


“我们已经有能力创建虚拟的互动世界,但这需要数亿甚至数十亿美元和大量的开发时间,”World Labs 联合创始人贾斯汀·约翰逊(Justin Johnson)在最近一期 a16z 播客中说道。“(世界模型)不仅能让你得到一张图片或一个片段,还能生成一个完全模拟的、充满活力的互动 3D 世界。”


TechCrunch 指出,World Labs 的系统属于一种新兴的 AI 类别,称为“大世界模型”(LWMS,Large World Models)。许多此类模型可以模拟游戏和 3D 环境,但常常存在伪影和一致性问题。例如,初创公司 Decart 的 Minecraft 模拟世界模型 Oasis 分辨率较低,并且很快“忘记”关卡的布局。


相比之下,World Labs 的方法确保场景在生成后保持不变,并遵守基本的物理定律。此外,World Labs 的系统还可以为场景添加互动效果和动画,比如更改物体颜色和动态照明背景。


尽管 World Labs 今年才成立,但已经从包括 Andreessen Horowitz(a16z)、阿什顿·库彻(Ashton Kutcher)、英特尔资本(Intel Capital)、AMD Ventures 和埃里克·施密特(Eric Schmidt)在内的投资者那里筹集了 2.3 亿美元的风投。该公司估值超过 10 亿美元,计划在 2025 年推出首款产品。


早前,李飞飞在接受彭博社采访时表示:“我相信空间智能是我未来的指路明灯,它将改变 AI 的发展轨迹。”然而,《连线》杂志的记者指出,World Labs 的愿景与此前一度热炒后迅速退潮的“元宇宙”概念有些相似。对此,World Labs 的创始人解释道,元宇宙之所以未能长久,是因为当时的热潮依托于一些有前景的硬件,却缺乏真正的互动内容,而他们认为,世界模型有望填补这一空白。


参考链接:

https://www.worldlabs.ai/blog

https://techcrunch.com/2024/12/02/world-labs-ai-can-generate-interactive-3d-scenes-from-a-single-photo/

2024-12-03 15:015974

评论

发布
暂无评论

Java并行程序基础

itlemon

Java 高并发 并行

Spring Security入门到实践(一)HTTP Basic在Spring Security中的应用原理浅析

itlemon

源码分析 spring security

JVM 垃圾回收机制

Alex🐒

JVM 深入理解JVM

【干货分享】通过命令操作来学习Git

itlemon

git git入门

记一次bem命名规范使用优化方案

前端有的玩

Vue npm React bem

JVM 垃圾回收器 CMS

Alex🐒

JVM 深入理解JVM GC

创世 | 中国古神话

chaozh

神话

【译文】创建 Kubernetes manifest 的初学者指南

FeiLong

Kubernetes

压测工具如何选择?

elfkingw

Flask 中的 Sessions

Leetao

Python flask Web框架

架构师训练营第7周作业

时来运转

女娲造物与补天 | 中国古神话

chaozh

【数据结构】Java 常用集合类 PriorityQueue

Alex🐒

Java 源码 数据结构

神国统治者 | 中国古神话

chaozh

JVM 类加载机制

Alex🐒

JVM 深入理解JVM

架构师训练营第七周作业-性能测试

sunnywhy

架构师训练营第7周总结

时来运转

优雅地利用c++编程从1乘到20 | 技术总结

chaozh

c++

深入Java Web技术内幕(一)浅析Web请求过程

itlemon

Java

程序员面试必备战衣 | T恤衫 - 程序员穿搭

chaozh

GEEK

深入 Java Web 技术内幕(二)浅析DNS域名解析过程

itlemon

DNS 域名解析

架构师训练营 - 命题作业 第 7 周

铁血杰克

并发必备基础知识汇总

itlemon

并发 基础

【数据结构】Java 常用集合类 ArrayDeque

Alex🐒

Java 源码 数据结构

Ubuntu 20.04 上安装和配置 VNC

酱紫的小白兔

JVM 垃圾回收器 G1

Alex🐒

JVM 深入理解JVM GC

彻底弄懂C++11右值引用 | 技术总结

chaozh

c++

如何挑选编程笔记本 | 数码产品

chaozh

玩转混合加密 | 精美配图

阿宝哥

安全 加密解密 数据加密

JVM 对象内存布局

Alex🐒

JVM 深入理解JVM

JVM 运行时数据区

Alex🐒

JVM 深入理解JVM

AI 绘画 out 了?「AI 教母」李飞飞的新 AI 直接造 3D 世界,一张图就够!_AI&大模型_罗燕珊_InfoQ精选文章