报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

Facebook 的 AI 从视频素材中学习物理位置之间的关系

  • 2020-02-28
  • 本文字数:1533 字

    阅读完需:约 5 分钟

Facebook的AI从视频素材中学习物理位置之间的关系

通常,计算机视觉系统擅长检测物体,但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素(例如,柜台上的砧板与随便一块地板)。


本文最初发布于 VentureBeat,经原作者授权由 InfoQ 中文站翻译并分享。



在一段第一人称视频中,Ego-Topo 构建了一个环境的拓扑地图,揭示了活动中心区域以及它们被访问的顺序。(图片来源:Facebook)


通常,计算机视觉系统擅长检测物体,但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素(例如,柜台上的砧板与随便一块地板)。


这就是为什么德克萨斯大学和 Facebook AI Research 的一组研究人员在论文Ego-Topo(该技术将从视频中捕捉到的空间分解成活动的拓扑地图,然后将视频组织成对不同区域的一系列访问)中对此进行了研究。将场景重组为“访问”而不是一系列的镜头,他们断言,Ego-Topo 能够推断第一人称行为(例如,一个人未来最可能采取什么行动?)和环境本身(例如,在一个特定的区域里有哪些可能的对象交互,即使尚未观察到的?)。


“我们的……[模型]比上面讨论的已有模型有优势……[I]提供了对过去的简洁的空间结构再现,[与]‘纯 3D’方法不同,我们的地图是根据人们对空间的使用有机地定义的。”


Ego-Topo 利用一个人工智能模型,它使用一个空间从视频中发现人们经常访问的地方,基于共享的物理空间和区域所提供的功能(与物理位置无关),按时间连接这些画面。(例如,视频开始时的洗碗机可能连接到结束时的同一台洗碗机,而厨房中的垃圾桶可能连接到另一厨房的垃圾处理机。)一组单独的模型利用生成的图来揭示环境的可用性,并在长视频中预测未来的动作。



跨多个区域的连接空间(例如,来自多个厨房的视频)有助于对环境及其功能用途的综合表示,这样,Ego-Topo 就能分析出环境的哪些部分与人类活动相关,以及这些区域的活动如何实现特定的目标。例如,给定一个厨房,即使不是每个视频都访问了厨房的所有部分,Ego-Top 也可以跨不同的视频进行连接,创建一个厨房的组合地图,说明这个永久化物理空间的用途。此外,它还可以连接多个厨房的区域,创建综合的地图,显示不同厨房之间的关系。


在实验中,该团队在两个关键任务上展示了 Ego-Topo:以一个新的视角推断可能的对象交互以及预测完成一个长期活动所需采取的行动。为了评估其性能,他们在 EGTEA Gaze+(其中包含 32 个主体在一个厨房里按照 7 个食谱准备一道菜的完整过程)和 EPIC-Kitchens(由日常厨房活动的视频,不局限于单一食谱或对象)上训练底层模型。



他们报告说,与基准相比,Ego-Topo 在所有预测层面上的表现都更好,而且它在预测遥远未来的行动方面表现出色。此外,他们还表示,将行动与模型拓扑图中发现的区域连接起来,可以得到进一步的改进,还可以根据其在综合图中的功能对空间进行对齐——特别是对于仅与单个位置相关的罕见类别。


“我们的方法最适合于(第一人称)视频中的长期活动,在这种活动中,区域会随着时间的推移以多种方式被反复访问和使用。这一定义广泛适用于常见的家庭和工作环境(如办公室、厨房、零售店、杂货店),”研究人员写道。“这些任务说明了一个能够成功推断场景功能的视觉系统将如何为增强现实(AR)和机器人技术的应用提供帮助。例如,如果一个 AR 系统知道在环境中哪些地方可以进行操作,那么它就可以通过教程以交互的方式指导用户;一个能够通过视频学习人们如何使用区域的移动机器人将可以在没有大量探索的情况下做好行动准备。”


英文原文:Facebook’s AI learns the relationships between physical places from first-person video footage


2020-02-28 15:131131

评论

发布
暂无评论
发现更多内容

狂刷《Java权威面试指南(阿里版)》,冲击“金九银十”有望了

Java 程序员 架构 面试 大厂

腾讯「小借条」引发的思考:区块链+的商业模式让各企业争先恐后的奥秘

CECBC

基于java springboot vue活动报名系统源码(毕设)

清风

Java springboot elementUI 毕业设计

千字真言,字字珠玑,我的Golang学习笔记,赤诚分享

奔着腾讯去

Go 语言

Qunar 酒店 NodeJS 覆盖率收集实践

Qunar技术沙龙

大前端 nodejs Node JavaScrip

前端基础五之jQuery基础

ベ布小禅

8月日更

Go 让 Apache APISIX 如虎添翼

API7.ai 技术团队

Apache 开源 插件 APISIX Go 语言

如何在Android 8.0以下高效地复用图片?

爱奇艺技术产品团队

android 开发 图片存储

DevOps如何攻克研发流程六大痛点?

BoCloud博云

厉害!GitHub星标70K阿里大佬手写的Spring Boot实战手册真不错

Java 编程 程序员 架构 计算机

赋能数据中心绿色低碳 浪潮云洲有实招

云计算

牛掰!“基础-中级-高级”Java程序员面试集结,看完献出我的膝盖

Java 编程 面试 IT 计算机

在华为P50 Pro中,听到AI异构通信的朱弦三叹

脑极体

进化十多年,四足机器人的网红属性有改变吗?

脑极体

腾讯、阿里纷纷看好的NFT,能否成为拯救区块链的良药?

CECBC

Apache APISIX 在 Airwallex 的应用 | 专访 Airwallex 技术平台负责人李杨

API7.ai 技术团队

Apache 开源 案例分享 api 网关 APISIX

从头到尾没有一句废话!阿里Redis神级手册,从基础到源码

Java redis 编程 面试 阿里

Activiti数据库表结构

金陵老街

「古老」茶产业碰上「年轻」区块链,能否擦出新火花?

CECBC

租房市场是流动的么?

escray

生活记录 8月日更 搜房记 租房

浅谈云上攻防——Kubelet访问控制机制与提权方法研究

腾讯安全云鼎实验室

k8s 云安全

替换及重置Homebrew默认源以及M1安装

一个大红包

8月日更

一周信创舆情观察(8.9~8.15)

统小信uos

字节大牛的1850页Leetcode刷题笔记外泄!用实力折服众人

Java 程序员 字节跳动 面试 算法

DevOps 调查第十年,如何借助工具实现落地?

飞算JavaAI开发助手

DevOps 基础软件 自动化平台

2021年8月数据库流行度排行:数据库道路漫漫其修远兮,为用户创造核心价值是正道

墨天轮

数据库 TiDB oceanbase 国产数据库 达梦

云原生的能源数据管理平台方案|EMQ 映云科技&华为云联合直播内容回顾

EMQ映云科技

华为云 能源 Cloud 碳中和 emq

字节架构师离职后,熬夜整理55W字Java面试手册,逆风翻盘进阿里

Java 编程 程序员 架构 面试

排查指南 | 两个案例学会从埋点排查 iOS 离线包

蚂蚁集团移动开发平台 mPaaS

mPaaS

“性能混合架构”了解了吗?英特尔Alder Lake惊艳来袭

科技新消息

凭借一份“面试真经pdf”,我四面字节跳动,拿下1-2级offer

Java 程序员 面试 后端 计算机

Facebook的AI从视频素材中学习物理位置之间的关系_AI&大模型_KYLE WIGGERS_InfoQ精选文章