HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Facebook 的 AI 从视频素材中学习物理位置之间的关系

  • 2020-02-28
  • 本文字数:1533 字

    阅读完需:约 5 分钟

Facebook的AI从视频素材中学习物理位置之间的关系

通常,计算机视觉系统擅长检测物体,但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素(例如,柜台上的砧板与随便一块地板)。


本文最初发布于 VentureBeat,经原作者授权由 InfoQ 中文站翻译并分享。



在一段第一人称视频中,Ego-Topo 构建了一个环境的拓扑地图,揭示了活动中心区域以及它们被访问的顺序。(图片来源:Facebook)


通常,计算机视觉系统擅长检测物体,但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素(例如,柜台上的砧板与随便一块地板)。


这就是为什么德克萨斯大学和 Facebook AI Research 的一组研究人员在论文Ego-Topo(该技术将从视频中捕捉到的空间分解成活动的拓扑地图,然后将视频组织成对不同区域的一系列访问)中对此进行了研究。将场景重组为“访问”而不是一系列的镜头,他们断言,Ego-Topo 能够推断第一人称行为(例如,一个人未来最可能采取什么行动?)和环境本身(例如,在一个特定的区域里有哪些可能的对象交互,即使尚未观察到的?)。


“我们的……[模型]比上面讨论的已有模型有优势……[I]提供了对过去的简洁的空间结构再现,[与]‘纯 3D’方法不同,我们的地图是根据人们对空间的使用有机地定义的。”


Ego-Topo 利用一个人工智能模型,它使用一个空间从视频中发现人们经常访问的地方,基于共享的物理空间和区域所提供的功能(与物理位置无关),按时间连接这些画面。(例如,视频开始时的洗碗机可能连接到结束时的同一台洗碗机,而厨房中的垃圾桶可能连接到另一厨房的垃圾处理机。)一组单独的模型利用生成的图来揭示环境的可用性,并在长视频中预测未来的动作。



跨多个区域的连接空间(例如,来自多个厨房的视频)有助于对环境及其功能用途的综合表示,这样,Ego-Topo 就能分析出环境的哪些部分与人类活动相关,以及这些区域的活动如何实现特定的目标。例如,给定一个厨房,即使不是每个视频都访问了厨房的所有部分,Ego-Top 也可以跨不同的视频进行连接,创建一个厨房的组合地图,说明这个永久化物理空间的用途。此外,它还可以连接多个厨房的区域,创建综合的地图,显示不同厨房之间的关系。


在实验中,该团队在两个关键任务上展示了 Ego-Topo:以一个新的视角推断可能的对象交互以及预测完成一个长期活动所需采取的行动。为了评估其性能,他们在 EGTEA Gaze+(其中包含 32 个主体在一个厨房里按照 7 个食谱准备一道菜的完整过程)和 EPIC-Kitchens(由日常厨房活动的视频,不局限于单一食谱或对象)上训练底层模型。



他们报告说,与基准相比,Ego-Topo 在所有预测层面上的表现都更好,而且它在预测遥远未来的行动方面表现出色。此外,他们还表示,将行动与模型拓扑图中发现的区域连接起来,可以得到进一步的改进,还可以根据其在综合图中的功能对空间进行对齐——特别是对于仅与单个位置相关的罕见类别。


“我们的方法最适合于(第一人称)视频中的长期活动,在这种活动中,区域会随着时间的推移以多种方式被反复访问和使用。这一定义广泛适用于常见的家庭和工作环境(如办公室、厨房、零售店、杂货店),”研究人员写道。“这些任务说明了一个能够成功推断场景功能的视觉系统将如何为增强现实(AR)和机器人技术的应用提供帮助。例如,如果一个 AR 系统知道在环境中哪些地方可以进行操作,那么它就可以通过教程以交互的方式指导用户;一个能够通过视频学习人们如何使用区域的移动机器人将可以在没有大量探索的情况下做好行动准备。”


英文原文:Facebook’s AI learns the relationships between physical places from first-person video footage


2020-02-28 15:131043

评论

发布
暂无评论
发现更多内容

从互联网到国企、从一线城市到三线省会

WizInfo

你可能不知道现在的Java面试有多卷!

程序员小毕

程序员 高并发 架构师 java面试 八股文

某米重新定义了985。。。

Jackpop

上个大学,竟然被割韭菜了?

Jackpop

机器学习洞察 | 降本增效,无服务器推理是怎么做到的?

亚马逊云科技 (Amazon Web Services)

机器学习

Centos更新升级内核命令-以及区别.

百度搜索:蓝易云

Linux centos 云服务器

手把手教学小型金融知识图谱构建:量化分析、图数据库neo4j、图算法、关系预测、命名实体识别、Cypher Cheetsheet详细教学等

汀丶人工智能

人工智能 深度学习 nlp 知识图谱 命名实体识别

金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)

汀丶人工智能

人工智能 数据挖掘 机器学习 数学建模 LSTM

C++实现读写ini配置文件

梦笔生花

代码随想录Day10 - 栈与队列(上)

jjn0703

Linux系统使用cpulimit对CPU使用率进行限制

百度搜索:蓝易云

Linux 服务器 云服务器 蓝易云

【Redis故障排查】「连接失败问题排查和解决」带你深入分析一下Redis阻塞原因以及问题排查方案指南

洛神灬殇

redis 分布式架构 解决方案 技术分析 性能优化分析

阿里P6跟P7有什么区别?

程序员小毕

Java 阿里巴巴 程序员 后端 架构师

一些容易被忽略的测试场景

QE_LAB

移动端测试 测试场景

做大模型不要沉迷有趣,要解决企业问题

新云力量

AI 2023人工智能大会 科技改变生活

【文件管理】Linux系统-ls命令 – 显示指定工作目录下的文件及属性信息

百度搜索:蓝易云

Linux 服务器 云服务器 蓝易云 ls

解决CentOS yum源失效问题.

百度搜索:蓝易云

Linux centos 云服务器 香港VPS服务器 蓝易云

Dialpad 的“野心” ,不止于 2 亿美元 ARR

CnosDB

时序数据库 开源社区 CnosDB

阿里云通义大模型家族迎来新成员,通义万相已开启定向邀测~

新云力量

AI 2023人工智能大会 科技改变生活

QEMU之CPU虚拟化(一):CPU虚拟化介绍

Linux内核拾遗

虚拟化 qemu kvm

985的分数,却毅然选择了普本。

Jackpop

宝塔面板Nginx开启Brotli压缩,提升网站加载速度-【给网站提提速】

百度搜索:蓝易云

Linux CDN 云服务器 压缩 宝塔面板

2023-07-07:给出两个字符串 str1 和 str2。 返回同时以 str1 和 str2 作为子序列的最短字符串。 如果答案不止一个,则可以返回满足条件的任意一个答案。 输入:str1 =

福大大架构师每日一题

Go 算法 rust 福大大架构师每日一题

阿里云AI绘画创作大模型通义万相亮相,已开启定向邀测!

新云力量

AI 2023人工智能大会 科技改变生活

【磁盘管理】fdisk命令 – 管理磁盘分区

百度搜索:蓝易云

Linux 命令 云服务器

【文件管理】Linux系统-cp命令 – 复制文件或目录

百度搜索:蓝易云

Linux centos 服务器 云服务器 ECS

具备捕获 Web2 用户能力的 PoseiSwap,治理通证$POSE再度涨超 360%

西柚子

考上211,录取到天坑专业。。。

Jackpop

拼多多最新面经出炉:项目+八股+算法+场景全都问了个遍

程序员小毕

程序员 算法 高并发 项目 java面试

Facebook的AI从视频素材中学习物理位置之间的关系_AI&大模型_KYLE WIGGERS_InfoQ精选文章