Niantic,这家开发了极受欢迎的增强现实手游《Pokémon GO》和《Ingress》的公司,宣布它正在使用其数百万玩家收集的数据来创建一个能够导航现实世界的 AI 模型。这是一个“大型地理空间模型”的概念,该模型将使用大规模机器学习来理解一个场景,并将其与全球数百万个其他场景联系起来。
“当你看到一个熟悉的结构类型时——无论是教堂、雕像还是城镇广场——即使你没有从各个角度看过它,也很容易想象从其他角度看它会是什么样子。作为人类,我们具有‘空间理解’能力,这意味着我们可以根据我们之前遇到的无数类似场景来填补这些细节。但对于机器来说这项任务极其困难。即使是当今最先进的人工智能模型也难以可视化和推断场景中缺失的部分,或者从新的角度想象一个地方的样子。这种情况即将改变:空间智能是人工智能模型的下一个前沿。”Niantic 表示。
作为 Niantic 视觉定位系统(VPS)的一部分,Niantic 训练了超过 5000 万个神经网络,拥有超过 150 万亿个参数,可运行在超过一百万个位置中。在 Niantic 的大型地理空间模型(Large Geospatial Model,LGM)愿景中,每个本地网络都将为同一个全球大型模型做出贡献,实现对地理位置的共享理解,并理解尚未完全扫描的那些地方。
LGM 将使计算机不仅能够感知和理解物理空间,还能以新的方式与它们交互,成为 AR 眼镜和其他领域,包括机器人、内容创建和自主系统的关键要素。随着我们从智能手机转向与现实世界相关的可穿戴技术,空间智能将成为世界未来的操作系统。
什么是大型地理空间模型?
大型语言模型(LLM)对人们日常生活和多个行业产生了不可否认的影响。经过互联网规模的文本集合训练后,LLM 能够理解和生成书面语言,其方式挑战了我们对“智能”的理解。LGM 将帮助计算机以同样先进的方式感知、理解和探索物理世界。
与 LLM 类似,地理空间模型是使用大量原始数据构建的:包括这个世界拍摄的数十亿张图像,全部关联到地球上的精确位置。它们被提炼成一个大型模型,从而实现基于位置的对空间、结构和物理交互的理解。
从基于文本的模型到基于 3D 数据的模型的转变反映了近年来人工智能发展的轨迹愈加广泛:从理解和生成语言,到解释和创建静态和动态图像(2D 视觉模型),并且随着当前研究工作的不断扩展,开始转向对物体的 3D 外观进行建模(3D 视觉模型)。
地理空间模型甚至比 3D 视觉模型更进了一步,因为它们可以捕获植根于特定地理位置,并具有可衡量的质量(quality)的 3D 实体。
与生成未缩放资产的典型 3D 生成模型不同,大型地理空间模型与度量空间绑定,确保以缩放度量(scale-metric)单位进行精确估算。因此,这些实体代表了下一代地图,而不是简单的 3D 资产。
虽然 3D 视觉模型也许能创建和理解 3D 场景,但地理空间模型还可以理解该场景与全球数百万个其他场景在地理上的关系。地理空间模型实现了一种地理空间智能,其中模型从其先前的观察中学习,并能够将知识转移到新位置,即使这些位置只观察到了一部分信息。
虽然带有 3D 图形能力的 AR 眼镜距离大众市场还有几年的时间,但地理空间模型有机会与纯音频或 2D 显示眼镜集成。这些模型可以引导用户游览世界、回答问题、提供个性化建议、帮助导航并增强现实世界的互动。大型语言模型也可以集成进来,使模型理解能力和空间结合在一起,让人们有机会更多地了解和参与周围的环境和社区。
源自大型地理空间模型的地理空间智能还可以生成、补完或操纵世界的 3D 表示,以帮助构建下一代 AR 体验。除了游戏之外,大型地理空间模型还将有很广泛的应用,包括空间规划和设计、物流、观众互动和远程协作。
Niantic 迄今为止做了些什么
Niantic 表示,在过去五年中,其一直专注于构建视觉定位系统(VPS),该系统使用手机中的单个图像来确定其位置和方向,使用的 3D 地图是由人们在 Niantic 的一系列游戏和 Scaniverse 中扫描的有趣位置来构建的。
借助 VPS,用户可以以厘米级的精度在世界中定位自己。这意味着他们可以精确而逼真地看到放置在物理环境中的数字内容。这些内容具有持久性,即在你离开后仍会保留在某个位置,然后可以与其他人共享。例如,Niantic 最近开始在 Pokémon GO 中推出一项名为 Pokémon Playgrounds 的实验性功能,用户可以将 Pokémon 放置在特定位置,然后它们将保留在那里供其他人查看和互动。
Niantic 的 VPS 是根据用户扫描构建的,这些扫描是从不同角度、在一天中的不同时间、一年中的许多时间进行的,并附带了定位信息,从而对世界有了非常详细的了解。这些数据是独一无二的,因为它是从行人的视角获取的,包括了很多汽车无法到达的地方。
如今,Niantic 在全球拥有 1000 万个扫描位置,其中超过 100 万个已激活并可用于 Niantic 的 VPS 服务。Niantic 每周收到大约 100 万份新的扫描资料,每份都包含数百张离散图像。
作为 VPS 的一部分,Niantic 使用运动结构技术构建经典的 3D 视觉地图,但也为每个位置构建一种新型的神经地图。这些模型基于 Niantic 的研究论文 ACE (2023) 和 ACE Zero (2024),它们不再使用经典的 3D 数据结构来表示位置,而是将它们隐式编码在神经网络的可学习参数中。这些网络可以快速将数千张地图图像压缩为精简的神经表示。给定一张新的查询图像,它们能以厘米级的精度为该位置提供精确定位。
迄今为止,Niantic 已训练了超过 5000 万个神经网络,其中多个网络可以为单个位置做出贡献。所有这些网络加起来包含超过 150 万亿个使用机器学习优化的参数。
LGM “实现前所未有的定位稳健性”
Niantic 当前的神经地图是一个可行的地理空间模型,目前作为 Niantic VPS 的一部分,处于活动状态并可用。然而,Niantic 对“大型地理空间模型”的愿景超越了当前独立的本地地图系统。
完全本地化的模型可能缺乏对各自位置的完整覆盖。无论 Niantic 在全球范围内拥有多少数据,但在本地,这些数据通常都是稀疏的。本地模型的主要故障模式是它无法推断出它已经看到的内容以及模型看到的位置。因此,本地模型只能将摄像机视图定位为与它们已经训练过的视图相似的视图。
“想象一下你站在教堂后面。假设离得最近的本地模型只看到了教堂的正门,因此,它无法告诉你你在哪里,因为该模型从未见过那栋建筑的背面。但在全球范围内,已经看到了很多教堂,有成千上万座,它们都被它们各自的本地模型在世界其他地方拍摄下来了。没有哪座教堂是一模一样的,但许多教堂都有共同的特征。LGM 是一种获取分布式知识的方法。”Niantic 表示。
LGM 在全球大型模型中提炼出共同信息,从而实现了跨本地模型的通信和数据共享。LGM 能够内化教堂的概念,以及这些建筑的共同结构。即使对于某个位置而言,Niantic 只绘制了教堂的入口,LGM 也能够根据它之前见过的数千座教堂,对建筑物的背面做出明智的猜测。因此,LGM 实现了前所未有的定位稳健性,即使是从 VPS 从未见过的视点和角度也依旧如此。
全球模型实现了对世界的集中理解,这种理解完全来自地理空间和视觉数据。LGM 通过全局插值进行局部推断。
达到“类似人类的理解”
上述过程类似于人类感知和想象世界的方式。作为人类,我们自然而然地就能认出以前见过的东西,即使是从不同的角度。例如,我们只需花费相对较少的力气就能沿着欧洲老城区蜿蜒的街道原路返回。我们能识别出所有正确的路口,尽管我们只见过一次,而且是从相反的方向。
这需要对物理世界和文化空间有一定程度的理解,这对我们来说是很自然的,但用传统的机器视觉技术很难实现。它需要了解一些基本的自然规律:世界是由固体物质组成的物体组成的,因此有正面和背面;外观会根据一天中的时间和季节而变化。它还需要大量的文化知识:许多人造物体的形状遵循特定的对称规则或其他一些常见的布局类型——通常取决于地理区域。
虽然早期的计算机视觉研究试图破译其中一些规则,以便将它们硬编码到手工制作的系统中,但现在大家一致认为,我们所期望的如此高程度的理解实际上只能通过大规模机器学习来实现。这是 LGM 所追求的。
在 Niantic 最近的研究论文 MicKey (2024) 中可以首次看到从 Niantic 的数据中浮现出的、令人印象深刻的相机定位能力。MicKey 是一个神经网络,即使在视点发生剧烈变化的情况下,也能够将两个相机视图相互定位。
MicKey 甚至可以处理一些人类需要费点力气才能弄清楚的对立镜头。MicKey 是基于 Niantic 的一小部分数据进行训练的。MicKey 仅限于双视图输入,并且是基于相对较少的数据进行训练的,但它仍是关于 LGM 潜力的一个概念证明。显然,要实现本文所述的地理空间智能,需要大量地理空间数据——这种数据并不是很多组织可以访问的。Niantic 认为,其可以引领大型地理空间模型成为现实,“毕竟每周我们都会收到超过一百万张用户贡献的真实世界地点扫描图。”
与多模态模型交互通信
LGM 不仅能用于定位。为了很好地解决定位问题,LGM 必须将丰富的几何、外观和文化信息编码为场景级特征。这些功能将实现新的场景表示、操作和创建方式。像 LGM 这样可用于众多下游应用的多功能大型 AI 模型通常被称为“基础模型”。
不同类型的基础模型将相互补充。LLM 将与多模态模型交互,而多模态模型又将与 LGM 通信。 这些系统协同工作,将以任何单一模型都无法实现的高级方式来理解世界。这种互联互通是空间计算的未来——诞生感知、理解和作用于物理世界的智能系统。
随着向更具可扩展性的模型迈进,Niantic 的目标仍然是引领大型地理空间模型的开发,“不管是什么地方,只要我们可以为用户提供新颖、有趣、丰富的体验,就可以运行这个模型。”Niantic 表示,除了游戏之外,大型地理空间模型还将有广泛的应用,包括空间规划和设计、物流、观众互动和远程协作。
从 LLM 到 LGM 的道路是人工智能进化的又一步。随着 AR 眼镜等可穿戴设备变得越来越普遍,世界未来的操作系统将依赖于物理和数字现实的融合,以创建一个以人为中心的空间计算系统。
原文链接:
https://nianticlabs.com/news/largegeospatialmodel
评论