Facebook的AI从视频素材中学习物理位置之间的关系_AI&大模型_KYLE WIGGERS

AICon 上海站｜日程100%上线，解锁Al未来！了解详情 



 写点什么

通常，计算机视觉系统擅长检测物体，但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素（例如，柜台上的砧板与随便一块地板）。

本文最初发布于 VentureBeat，经原作者授权由 InfoQ 中文站翻译并分享。

在一段第一人称视频中，Ego-Topo 构建了一个环境的拓扑地图，揭示了活动中心区域以及它们被访问的顺序。（图片来源：Facebook）

通常，计算机视觉系统擅长检测物体，但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素（例如，柜台上的砧板与随便一块地板）。

这就是为什么德克萨斯大学和 Facebook AI Research 的一组研究人员在论文Ego-Topo（该技术将从视频中捕捉到的空间分解成活动的拓扑地图，然后将视频组织成对不同区域的一系列访问）中对此进行了研究。将场景重组为“访问”而不是一系列的镜头，他们断言，Ego-Topo 能够推断第一人称行为（例如，一个人未来最可能采取什么行动？）和环境本身（例如，在一个特定的区域里有哪些可能的对象交互，即使尚未观察到的？）。

“我们的……[模型]比上面讨论的已有模型有优势……[I]提供了对过去的简洁的空间结构再现，[与]‘纯 3D’方法不同，我们的地图是根据人们对空间的使用有机地定义的。”

Ego-Topo 利用一个人工智能模型，它使用一个空间从视频中发现人们经常访问的地方，基于共享的物理空间和区域所提供的功能（与物理位置无关），按时间连接这些画面。（例如，视频开始时的洗碗机可能连接到结束时的同一台洗碗机，而厨房中的垃圾桶可能连接到另一厨房的垃圾处理机。）一组单独的模型利用生成的图来揭示环境的可用性，并在长视频中预测未来的动作。

跨多个区域的连接空间（例如，来自多个厨房的视频）有助于对环境及其功能用途的综合表示，这样，Ego-Topo 就能分析出环境的哪些部分与人类活动相关，以及这些区域的活动如何实现特定的目标。例如，给定一个厨房，即使不是每个视频都访问了厨房的所有部分，Ego-Top 也可以跨不同的视频进行连接，创建一个厨房的组合地图，说明这个永久化物理空间的用途。此外，它还可以连接多个厨房的区域，创建综合的地图，显示不同厨房之间的关系。

在实验中，该团队在两个关键任务上展示了 Ego-Topo：以一个新的视角推断可能的对象交互以及预测完成一个长期活动所需采取的行动。为了评估其性能，他们在 EGTEA Gaze+（其中包含 32 个主体在一个厨房里按照 7 个食谱准备一道菜的完整过程）和 EPIC-Kitchens（由日常厨房活动的视频，不局限于单一食谱或对象）上训练底层模型。

他们报告说，与基准相比，Ego-Topo 在所有预测层面上的表现都更好，而且它在预测遥远未来的行动方面表现出色。此外，他们还表示，将行动与模型拓扑图中发现的区域连接起来，可以得到进一步的改进，还可以根据其在综合图中的功能对空间进行对齐——特别是对于仅与单个位置相关的罕见类别。

“我们的方法最适合于（第一人称）视频中的长期活动，在这种活动中，区域会随着时间的推移以多种方式被反复访问和使用。这一定义广泛适用于常见的家庭和工作环境（如办公室、厨房、零售店、杂货店），”研究人员写道。“这些任务说明了一个能够成功推断场景功能的视觉系统将如何为增强现实（AR）和机器人技术的应用提供帮助。例如，如果一个 AR 系统知道在环境中哪些地方可以进行操作，那么它就可以通过教程以交互的方式指导用户；一个能够通过视频学习人们如何使用区域的移动机器人将可以在没有大量探索的情况下做好行动准备。”

英文原文：Facebook’s AI learns the relationships between physical places from first-person video footage

发布

暂无评论

创作场景

Facebook 的 AI 从视频素材中学习物理位置之间的关系

评论

架构师训练营第 9 周学习总结

架构师训练营 week9 课后作业

架构师训练营第13周总结

《JAVA并发编程核心方法与框架》.pdf

盘点2020 | 带领团队学习成长，干货总结

架构师训练营第 9 周课后练习

架构师训练营 week10 学习笔记

week9 性能优化（三）作业和学习总结

第九周学习总结

面试官：Mybatis里的设计模式有哪些？我一口气答了8种

架构师训练营第十三周学习总结

架构师训练营第 1 期 - 第十三周作业

第九周课后练习

两个周末整理的垃圾回收知识，我要吐血了

第四周系统架构作业

第十三周作业

架构师训练营第13周作业

架构师训练营第一期第十三周作业

架构师训练营第四周作业

架構師訓練營 week13 總結

第四周学习总结

架構師訓練營 week13 作業

海底光缆是如何铺设出来的？

架构师训练营第 1 期 - 第十三周总结

架构师训练营第一期第十三周总结

LeetCode题解：18. 四数之和，双指针，JavaScript，详细注释

大数据 2 第十三周作业「架构师训练营第 1 期」

架构师训练营第十三周课后作业

架构师训练营 week9 学习总结

分布式服务框架的选择-《企业IT架构转型之道-阿里巴巴中台战略思想与架构实战》

架构师训练营 week10 课后作业

创作场景

Facebook 的 AI 从视频素材中学习物理位置之间的关系

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载