产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言

  • 2022-05-07
  • 本文字数:2945 字

    阅读完需:约 10 分钟

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言

本文最初发布于 WIRED 博客,由 InfoQ 中文站翻译并分享。


如果你的电脑因为注意到你没有坐在办公桌前而决定不响起通知铃声,会怎么样?如果你的电视看到你离开沙发去开门,并自动暂停 Netflix,然后在你坐下来的时候继续播放,会怎么样?如果我们的电脑能从我们的动作中获得更多的社交线索,并学会成为更体贴的伙伴,会怎么样?


这听起来很有未来感,当然,或许还有点侵入性——一台电脑在监视你的一举一动?但是,如果你知道这些技术不必依靠摄像头来观察你的位置和行为,就不会觉得那么恐怖了。作为替代,它们使用了雷达。谷歌的先进技术和产品部门—也就是我们常说的 ATAP,该部门是诸如触控式牛仔夹克等古怪项目的幕后推手——在过去一年里,他们一直在探索计算机如何利用雷达来了解我们的需求或意图,并作出适当的反应。


这并不是第一次了,谷歌使用雷达为其小设备提供空间感知能力。2015 年,谷歌发布了Soli,这是一个可以使用雷达电磁波的传感器,可以精确地捕捉到手势和动作。它首次出现在谷歌Pixel 4中,可以检测简单的手势,使用户不需要实际触摸智能手机就可以休眠闹钟或暂停音乐。最近,第二代Nest Hub智能显示器也嵌入了雷达传感器,可以检测睡在它旁边的人的动作和呼吸模式。这样,该设备就能够跟踪该人的睡眠,而且不需要他们戴上智能手表。


同样的 Soli 传感器也被用在了新一轮的研究中,但是,ATAP 不是使用传感器输入直接控制计算机,而是使用传感器数据使计算机能够识别我们的日常动作并做出新的选择。


ATAP 设计主管 Leonardo Giusti 说,“我们相信,随着技术越来越多地进入我们的生活,要求技术从我们这里获得更多的线索,是公正的”。就像你妈妈可能会在你出门前提醒你拿好雨伞一样,也许恒温器可以在你走过时传达同样的信息,或者是电视机检测到你在沙发上睡着了时降低音量。



人类进入计算机的个人空间(图片由谷歌提供,点击查看动图)


Giusti 说,许多研究都是基于空间关系学,即研究人们如何利用他们周围的空间来促成社会互动。当你离一个人越近,就越期望增加参与度和亲密感。ATAP 团队利用这一点和其他社会线索证实,人和设备都有自己的个人空间概念。


雷达可以探测到你向电脑靠近并进入其个人空间。这可能意味着电脑可以选择执行某些动作,如启动屏幕,这个过程不需要你按下按钮。目前,谷歌Nest智能显示器已经具备了这种互动能力,不过谷歌用的不是雷达,而是超声波来测量人与设备的距离。当 Nest Hub 检测到你正在靠近时,它会高亮显示当前的提醒事项、日历活动或其他重要通知。


仅仅靠近还不够。如果你最终看着不同的方向,从机器旁边走了过去,怎么办?为了解决这个问题,Soli 会捕捉到动作和手势中的更多细节,如身体的方向,你可能走哪条路以及头的朝向——并在机器学习算法的帮助下,进一步完善这些数据。雷达获取的这些丰富的信息有助于它更好地预测你是否真的要开始与设备互动,以及可能的互动类型。


这种感知改进来自于该团队在自己的起居室内执行一系列精心设计的任务(他们在大流行期间呆在家里),并使用了头戴摄像机(跟踪自己的行动)和实时雷达感应。


点击观看视频https://youtu.be/r-eh2K4HCzI


ATAP 高级交互设计师 Lauren Bedal 说,“我们以不同的方式移动,变换不同的动作,然后——鉴于我们当时使用的是一个实时系统——我们即兴发挥,在某种程度上,是基于实时发现完成的”。


Bedal 有舞蹈背景。她说,这个过程非常类似于编舞者选取一个基本的动作理念(即运动主题),并探索其变化,如舞者如何移动他们的重心,或改变身体的位置和方向。基于这些研究,团队正式确定了一套动作,而灵感都来自于非语言交流和与设备的自然互动:靠近或离开,经过,朝向或背向,以及扫视。


Bedal 举了几个计算机对这些动作做出反应的例子。如果设备感知到你在靠近,它可以调出触摸控制;走近设备,它会加亮显示收到的电子邮件;离开房间,电视记录你离开时的进度,并在你回来时从那个位置继续播放。如果设备确定你只是路过,它就不会用低优先级的通知来打扰你。如果你在厨房里照着视频烹饪,那么设备可以在你走开去拿材料时暂停,在你回来时恢复播放,并表达继续进行的意图。如果你在打电话时瞥了一眼智能显示器,那么该设备可以提供转到视频通话的选项,这样你就可以放下手机了。


“从所有这些动作中,我们可以窥见未来与计算机交互的一种方式,利用我们的自然动作,感觉非常隐蔽,其理念是,计算机有点退居幕后,只在适当的时候帮助我们,”Bedal 说。“我们真正地推动了人们所认为的人机互动的可能性界限。”


利用雷达来影响计算机对我们的反应是有一些挑战的。例如,虽然雷达可以探测到房间里的多个人,但如果被测者靠得太近,传感器就会把一群人看成是形状不固定的一团,这就导致了决策混乱。还有很多工作要做,这就是为什么 Bedal(多次)强调,这项工作在很大程度上尚处于研究阶段——所以现在还不要指望它出现在下一代智能显示器中。



ATAP 的雷达技术不使用摄像头就可以感知你在往哪看(图片由谷歌提供,点击查看动图)


有充分的理由认为,雷达也可以帮助学习你日常的生活模式。ATAP 的 Giusti 说,这是他们研究路线图上的一个领域,或许可以提供与个人目标相关的健康习惯建议。我想象我的智能显示器在发现我半夜要去吃零食的时候,变出一个巨大的停止标志。


在执行它认为你想要的一系列动作时,这些设备也需要寻求一种平衡。例如,如果我在厨房做饭时想让电视开着怎么办?雷达会检测到没人在看电视,并把电视暂停,而不是让它开着。“当我们开始研究这些感觉非常隐蔽、流畅无卡顿的交互模式时,就需要在用户控制和自动化之间进行适当的平衡了,”Bedal 说。“这似乎不是很麻烦,但我们应该考虑用户可能想要的控制或配置的数量。”


ATAP 团队选择使用雷达,因为这种方法在收集丰富的空间数据时可以更好的保护隐私。(它的延迟非常低,可以在黑暗中工作,而且声音或温度等外部因素对它没影响)。与摄像头不同,雷达不会捕捉和存储可辨别的身体、面部或其他身份标识图像。“它更像是一个先进的运动传感器,”Giusti 说。Soli 探测范围约为 9 英尺——比大多数摄像头要小——但如果家里有多个带有 Soli 传感器的小设备,就可以有效地覆盖你的空间,并创建一个有效的网状网络来追踪你在家中的行踪。(值得注意的是,目前,谷歌 Nest Hub 中的 Soli 传感器数据是在本地处理的,原始数据从未被发送到云端)。



一个内部装有 ATAP 新技术的设备可以感应到你的靠近,然后推测你可能想做的事情并改变其状态。(图片由谷歌提供,点击查看动图)


卡内基梅隆大学人机交互研究员、未来界面小组负责人 Chris Harrison 说,消费者将不得不在个人隐私方面做出权衡——毕竟,谷歌是 "将数据货币化的世界领导者"——但他仍然认为谷歌的无摄像头方法在很大程度遵循了用户至上和隐私至上的原则。“不存在是否侵犯隐私的问题,”Harrison 说。“一切都在波谱上。”


设备必然会配备像 Soli 这样的传感器来收集更多的数据,以便更好地理解我们。最终,Harrison 期望看到,ATAP 基于各种技术设想所进行的人机互动改善。


Harrison 说:“人类能真正地理解人类的行为,而计算机在理解时,确实会额外导致些令人沮丧的[情况] 。把社会科学家和行为科学家带入计算机领域,可以使得这类体验更加令人愉快,更具人文关怀。”


查看英文原文:https://www.wired.com/story/google-soli-atap-research-2022

2022-05-07 10:001710
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 533.3 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

参与中国信通院低代码&无代码市场调研问卷,浅抽超丰富奖池!

云智慧AIOps社区

大前端 低代码 数据可视化 无代码 低代码报告

浅谈Vue3组件通信

CoderBin

Vue 前端 10月月更

DAPP系统开发Web3.0技术实现

薇電13242772558

dapp web3

哪些js手写题是需要掌握的

helloworld1024fd

JavaScript

java培训学习后能高薪就业吗?

小谷哥

React源码分析6-hooks源码

goClient1992

React

ReactDOM.render在react源码中执行之后发生了什么?

flyzz177

React

React Context源码是怎么实现的呢

flyzz177

React

React核心技术浅析

夏天的味道123

React

前端开发培训机构怎么学

小谷哥

25分钟了解php?php基础

贤鱼很忙

php 10月月更

2022年9月国产数据库大事记-墨天轮

墨天轮

数据库 opengauss TiDB 国产数据库 KingBase

前端开发培训机构学习方法

小谷哥

java培训学习怎么选择培训机构

小谷哥

一文详解 | 低代码发展的 “背后推手”

SoFlu软件机器人

美团前端二面必会手写面试题汇总

helloworld1024fd

JavaScript

Apache Dolphin Scheduler 3.0.1 发布,对核心及UI相关进行优化

白鲸开源

海豚调度 Apache DolphinScheduler 任务调度 版本发布 新版本/特性发布

React生命周期深度完全解读

夏天的味道123

React

广州云管平台有哪些?联系方式是什么?

行云管家

云计算 企业上云 云管平台 广州

激活工具带毒,静默安装360、2345系列软件

火绒安全

安全 下载器 病毒 恶意软件

Kubernetes 认证管理员(CKA)必过心得

HummerCloud

云原生 CKA #k8s Kubetnetes kubernetes 运维

SPL工业智能:原料与产品的拟合

石臻臻的杂货铺

工业智能体 SPL 10月月更

Zebec地平线节点运营计划,Web3流支付赛道或多一条全新公链

鳄鱼视界

【等保小知识】等保测评整体测评是什么意思?

行云管家

等保 等级保护 等保测评 等保2.0

VoneBaaS团队成功入围第二届中国可信区块链安全攻防大赛决赛

旺链科技

区块链 产业区块链 VoneBaaS BaaS平台

【开发者说】一课表,你的智能课业管理工具

HarmonyOS开发者

HarmonyOS

leetcode 236. Lowest Common Ancestor of a Binary Tree 二叉树的最近公共祖先(中等)

okokabcd

LeetCode 数据结构与算法

公共数据开放落地细则探讨,企业如何合规取用?

Jessica@数牍

安全隐私 公共数据开放 安全合规

深入分析React-Scheduler原理

xiaofeng

React

React源码分析5-commit

goClient1992

React

对在前端培训初学者的几点建议

小谷哥

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言_AI&大模型_JULIAN CHOKKAT_InfoQ精选文章