QCon北京|3天沉浸式学习,跳出信息茧房。 了解详情
写点什么

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言

  • 2022-05-07
  • 本文字数:2945 字

    阅读完需:约 10 分钟

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言

本文最初发布于 WIRED 博客,由 InfoQ 中文站翻译并分享。


如果你的电脑因为注意到你没有坐在办公桌前而决定不响起通知铃声,会怎么样?如果你的电视看到你离开沙发去开门,并自动暂停 Netflix,然后在你坐下来的时候继续播放,会怎么样?如果我们的电脑能从我们的动作中获得更多的社交线索,并学会成为更体贴的伙伴,会怎么样?


这听起来很有未来感,当然,或许还有点侵入性——一台电脑在监视你的一举一动?但是,如果你知道这些技术不必依靠摄像头来观察你的位置和行为,就不会觉得那么恐怖了。作为替代,它们使用了雷达。谷歌的先进技术和产品部门—也就是我们常说的 ATAP,该部门是诸如触控式牛仔夹克等古怪项目的幕后推手——在过去一年里,他们一直在探索计算机如何利用雷达来了解我们的需求或意图,并作出适当的反应。


这并不是第一次了,谷歌使用雷达为其小设备提供空间感知能力。2015 年,谷歌发布了Soli,这是一个可以使用雷达电磁波的传感器,可以精确地捕捉到手势和动作。它首次出现在谷歌Pixel 4中,可以检测简单的手势,使用户不需要实际触摸智能手机就可以休眠闹钟或暂停音乐。最近,第二代Nest Hub智能显示器也嵌入了雷达传感器,可以检测睡在它旁边的人的动作和呼吸模式。这样,该设备就能够跟踪该人的睡眠,而且不需要他们戴上智能手表。


同样的 Soli 传感器也被用在了新一轮的研究中,但是,ATAP 不是使用传感器输入直接控制计算机,而是使用传感器数据使计算机能够识别我们的日常动作并做出新的选择。


ATAP 设计主管 Leonardo Giusti 说,“我们相信,随着技术越来越多地进入我们的生活,要求技术从我们这里获得更多的线索,是公正的”。就像你妈妈可能会在你出门前提醒你拿好雨伞一样,也许恒温器可以在你走过时传达同样的信息,或者是电视机检测到你在沙发上睡着了时降低音量。



人类进入计算机的个人空间(图片由谷歌提供,点击查看动图)


Giusti 说,许多研究都是基于空间关系学,即研究人们如何利用他们周围的空间来促成社会互动。当你离一个人越近,就越期望增加参与度和亲密感。ATAP 团队利用这一点和其他社会线索证实,人和设备都有自己的个人空间概念。


雷达可以探测到你向电脑靠近并进入其个人空间。这可能意味着电脑可以选择执行某些动作,如启动屏幕,这个过程不需要你按下按钮。目前,谷歌Nest智能显示器已经具备了这种互动能力,不过谷歌用的不是雷达,而是超声波来测量人与设备的距离。当 Nest Hub 检测到你正在靠近时,它会高亮显示当前的提醒事项、日历活动或其他重要通知。


仅仅靠近还不够。如果你最终看着不同的方向,从机器旁边走了过去,怎么办?为了解决这个问题,Soli 会捕捉到动作和手势中的更多细节,如身体的方向,你可能走哪条路以及头的朝向——并在机器学习算法的帮助下,进一步完善这些数据。雷达获取的这些丰富的信息有助于它更好地预测你是否真的要开始与设备互动,以及可能的互动类型。


这种感知改进来自于该团队在自己的起居室内执行一系列精心设计的任务(他们在大流行期间呆在家里),并使用了头戴摄像机(跟踪自己的行动)和实时雷达感应。


点击观看视频https://youtu.be/r-eh2K4HCzI


ATAP 高级交互设计师 Lauren Bedal 说,“我们以不同的方式移动,变换不同的动作,然后——鉴于我们当时使用的是一个实时系统——我们即兴发挥,在某种程度上,是基于实时发现完成的”。


Bedal 有舞蹈背景。她说,这个过程非常类似于编舞者选取一个基本的动作理念(即运动主题),并探索其变化,如舞者如何移动他们的重心,或改变身体的位置和方向。基于这些研究,团队正式确定了一套动作,而灵感都来自于非语言交流和与设备的自然互动:靠近或离开,经过,朝向或背向,以及扫视。


Bedal 举了几个计算机对这些动作做出反应的例子。如果设备感知到你在靠近,它可以调出触摸控制;走近设备,它会加亮显示收到的电子邮件;离开房间,电视记录你离开时的进度,并在你回来时从那个位置继续播放。如果设备确定你只是路过,它就不会用低优先级的通知来打扰你。如果你在厨房里照着视频烹饪,那么设备可以在你走开去拿材料时暂停,在你回来时恢复播放,并表达继续进行的意图。如果你在打电话时瞥了一眼智能显示器,那么该设备可以提供转到视频通话的选项,这样你就可以放下手机了。


“从所有这些动作中,我们可以窥见未来与计算机交互的一种方式,利用我们的自然动作,感觉非常隐蔽,其理念是,计算机有点退居幕后,只在适当的时候帮助我们,”Bedal 说。“我们真正地推动了人们所认为的人机互动的可能性界限。”


利用雷达来影响计算机对我们的反应是有一些挑战的。例如,虽然雷达可以探测到房间里的多个人,但如果被测者靠得太近,传感器就会把一群人看成是形状不固定的一团,这就导致了决策混乱。还有很多工作要做,这就是为什么 Bedal(多次)强调,这项工作在很大程度上尚处于研究阶段——所以现在还不要指望它出现在下一代智能显示器中。



ATAP 的雷达技术不使用摄像头就可以感知你在往哪看(图片由谷歌提供,点击查看动图)


有充分的理由认为,雷达也可以帮助学习你日常的生活模式。ATAP 的 Giusti 说,这是他们研究路线图上的一个领域,或许可以提供与个人目标相关的健康习惯建议。我想象我的智能显示器在发现我半夜要去吃零食的时候,变出一个巨大的停止标志。


在执行它认为你想要的一系列动作时,这些设备也需要寻求一种平衡。例如,如果我在厨房做饭时想让电视开着怎么办?雷达会检测到没人在看电视,并把电视暂停,而不是让它开着。“当我们开始研究这些感觉非常隐蔽、流畅无卡顿的交互模式时,就需要在用户控制和自动化之间进行适当的平衡了,”Bedal 说。“这似乎不是很麻烦,但我们应该考虑用户可能想要的控制或配置的数量。”


ATAP 团队选择使用雷达,因为这种方法在收集丰富的空间数据时可以更好的保护隐私。(它的延迟非常低,可以在黑暗中工作,而且声音或温度等外部因素对它没影响)。与摄像头不同,雷达不会捕捉和存储可辨别的身体、面部或其他身份标识图像。“它更像是一个先进的运动传感器,”Giusti 说。Soli 探测范围约为 9 英尺——比大多数摄像头要小——但如果家里有多个带有 Soli 传感器的小设备,就可以有效地覆盖你的空间,并创建一个有效的网状网络来追踪你在家中的行踪。(值得注意的是,目前,谷歌 Nest Hub 中的 Soli 传感器数据是在本地处理的,原始数据从未被发送到云端)。



一个内部装有 ATAP 新技术的设备可以感应到你的靠近,然后推测你可能想做的事情并改变其状态。(图片由谷歌提供,点击查看动图)


卡内基梅隆大学人机交互研究员、未来界面小组负责人 Chris Harrison 说,消费者将不得不在个人隐私方面做出权衡——毕竟,谷歌是 "将数据货币化的世界领导者"——但他仍然认为谷歌的无摄像头方法在很大程度遵循了用户至上和隐私至上的原则。“不存在是否侵犯隐私的问题,”Harrison 说。“一切都在波谱上。”


设备必然会配备像 Soli 这样的传感器来收集更多的数据,以便更好地理解我们。最终,Harrison 期望看到,ATAP 基于各种技术设想所进行的人机互动改善。


Harrison 说:“人类能真正地理解人类的行为,而计算机在理解时,确实会额外导致些令人沮丧的[情况] 。把社会科学家和行为科学家带入计算机领域,可以使得这类体验更加令人愉快,更具人文关怀。”


查看英文原文:https://www.wired.com/story/google-soli-atap-research-2022

2022-05-07 10:001823
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 549.5 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

让软件开发民主化的低代码

力软低代码开发平台

从一线开发到技术总监,你就差一个赶鸭子上架

融云 RongCloud

程序员

如何有效规避代码被“投毒”?

安势信息

许可证 代码安全 开源软件 安全合规检测 开源软件供应链

单元测试,写起来到底有多痛?你会了吗

C++后台开发

网络编程 单元测试 后端开发 Linux服务器开发 C++开发

业务出海,灵感乍现前要先「把手弄脏」

融云 RongCloud

自助洗车或许要比自动洗车更干净

共享电单车厂家

自助洗车 自助洗车加盟 车白兔自助洗车 自动洗车

龙蜥社区发布首个 Anolis OS 安全指南 为用户业务系统保驾护航

OpenAnolis小助手

阿里云 操作系统 龙蜥社区 sig 统信软件

TMECH发表优必选运控技术最新进展:实现人形机器人高鲁棒性行走

优必选科技

ES6 类聊 JavaScript 设计模式之创建型模式

devpoint

JavaScript 设计模式 工厂模式 7月月更 创造性模式

商城异地多活架构设计

泋清

#架构训练营

自助洗车为洗车行业注入新活力

共享电单车厂家

自助洗车 自助洗车加盟 车白兔自助洗车 洗车行业市场

云渲染,设计行业的“新贵”

Finovy Cloud

渲染 云渲染 GPU算力 渲染技术

那一年,春晚拓荒牛背后的故事

优必选科技

机器人

专业创作本华硕ProArt 创16 2022预售,高效创作新旗舰

科技热闻

openGauss内核分析:查询重写

华为云开发者联盟

数据库 后端 查询 SQL语言 openGauss内核

海外APP推送(上篇):厂商通道与谷歌FCM通道的差异

极光JIGUANG

Python函数默认参数避坑指南

和牛

测试

从云原生到智能化,深度解读行业首个「视频直播技术最佳实践图谱」

阿里云CloudImagine

音视频 直播 视频云

【盲盒APP商城系统】在线拆盒后的功能介绍

WDL22119

盲盒小程序开发 盲盒APP开发 盲盒源码 盲盒H5开发 盲盒系统开发

阿里云联合平行云推出云XR平台,支持沉浸式体验应用快速落地

阿里云弹性计算

视觉计算 云XR平台

带你认识一下数仓的分区自动管理

华为云开发者联盟

数据库 后端 分区

SpringBoot到底是什么

华为云开发者联盟

开发 springboot parent

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

优必选科技

人工智能 多模态机器学习

自助洗车加盟要满足什么条件

共享电单车厂家

自助洗车加盟 车白兔自助洗车

自助洗车费用居然比雪糕还便宜?

共享电单车厂家

自助洗车加盟 车白兔自助洗车 自助洗车费用 自助洗车价格

到底什么是自助洗车?来科普下

共享电单车厂家

自助洗车加盟 车白兔自助洗车 什么是自助洗车

结合pyqt5开发办公文档一键转换软件,以后再也不用开会员转文件了

迷彩

打包 7月月更 自动化办公

视频聊天源码——一对一直播系统源码

开源直播系统源码

软件开发 直播系统源码 开源源码

适合新手的12个Mybatis-Plus常用注解

华为云开发者联盟

后端 开发

【Docker 那些事儿】初始 Kubernetes 容器管理平台(上)

Albert Edison

Docker Kubernetes 容器 云原生 7月月更

执行ls /dev/pts为什么这么慢?

BUG侦探

内核 ebpf devpts

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言_AI&大模型_JULIAN CHOKKAT_InfoQ精选文章