写点什么

多人 3D 人体姿态估计问题新突破:美图 & 北航联合提出分布感知式单阶段模型

  • 2022-03-22
  • 本文字数:3691 字

    阅读完需:约 12 分钟

多人3D人体姿态估计问题新突破:美图&北航联合提出分布感知式单阶段模型

近日,计算机视觉顶会 CVPR 2022 公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收。该论文突破性地提出分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。该方法通过一次网络前向推理同时获取 3D 空间中人体位置信息以及相对应的关键点信息,从而简化了预测流程,提高了效率。此外,该方法有效地学习了人体关键点的真实分布,进而提升了基于回归框架的精度。

 

多人 3D 人体姿态估计是当前的一个热点研究课题,也具有广泛的应用潜力。在计算机视觉中,基于单张 RGB 图片的多人 3D 人体姿态估计问题通常通过自顶向下或是自底向上的两阶段方法来解决,然而两阶段的方法需忍受大量的冗余计算以及复杂的后处理,其低效率深受诟病。此外,已有方法缺少对人体姿态数据分布的认知,从而无法准确地求解从 2D 图片到 3D 位置这一病态问题,以上两点限制了已有方法在实际场景中的应用。

 

美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)在 CVPR 2022 发表的论文,提出一种分布感知式单阶段模型,并利用这一模型从单张 RGB 图片中估计多个人在 3D 相机空间中的人体姿态。该方法将 3D 人体姿态表示为 2.5D 人体中心点和 3D 关键点偏移量,以适配图片空间的深度估计,同时这一表示将人体位置信息和对应的关键点信息进行了统一,从而使得单阶段多人 3D 姿态估计成为可能。

 

此外,该方法在模型优化过程中对人体关键点的分布进行了学习,这为关键点位置的回归预测提供了重要的指导信息,进而提升了基于回归框架的精度。这一分布学习模块可以与姿态估计模块在训练过程中通过最大似然估计一起学习,在测试过程中该模块被移除,不会带来模型推理计算量的增加。为了降低人体关键点分布学习的难度,该方法创新性地提出了一种迭代更新的策略以逐渐逼近目标分布。

 

该模型以全卷积的方式来实现,可以进行端到端的训练和测试。通过这样一种方式,该算法可以有效且精准地解决多人 3D 人体姿态估计问题,在取得和两阶段方法接近的精度的同时,也大大提升了速度。

 

论文链接:https://arxiv.org/abs/2203.07697

 

背景

 

多人 3D 人体姿态估计是计算机视觉中的经典问题,它被广泛地应用于 AR/VR、游戏、运动分析、虚拟试衣等,近年来随着元宇宙概念的兴起,更是让这一技术备受关注。目前,通常采用两阶段方法来解决该问题:自顶向下方法,即先检测图片多个人体的位置,之后对检测到的每个人使用单人 3D 姿态估计模型来分别预测其姿态;自底向上方法,即先检测图片中所有人的 3D 关键点,之后通过相关性将这些关键点分配给对应的人体。

 

尽管两阶段方法取得了良好的精度,但是需要通过冗余的计算和复杂的后处理来顺序性地获取人体位置信息和关键点位置信息,这使得速率通常难以满足实际场景的部署需求,因此多人 3D 姿态估计算法流程亟需简化。另一方面,在缺少数据分布先验知识的情况下,从单张 RGB 图片中估计 3D 关键点位置,特别是深度信息,是一个病态问题。这使得传统的应用于 2D 场景的单阶段模型无法直接向 3D 场景进行扩展,因此学习并获取 3D 关键点的数据分布是进行高精度多人 3D 人体姿态估计的关键所在。

 

为了克服以上问题,该论文提出了一种分布感知式单阶段模型(Distribution-Aware Single-stage model, DAS)用于解决基于单张图片的多人 3D 人体姿态估计这一病态问题。DAS 模型将 3D 人体姿态表示为 2.5D 人体中心点和 3D 人体关键点偏移,这一表示有效地适配了基于 RGB 图片域的深度信息预测。同时,它也将人体位置信息和关键点位置信息进行了统一,从而使得基于单目图片的单阶段多人 3D 姿态估计方法成为可能。另外,DAS 模型在优化过程中对 3D 关键点的分布进行学习,这为 3D 关键点的回归提供了极具价值的指导性信息,从而有效地提升了预测精度。此外,为了缓解关键点分布估计的难度,DAS 模型采用了一种迭代更新策略以逐步逼近真实分布目标,通过这样一种方式,DAS 模型可以高效且精准地从单目 RGB 图片中一次性获取多个人的 3D 人体姿态估计结果。

 

单阶段多人 3D 姿态估计模型

 

在实现上,DAS 模型基于回归预测框架来构建,对于给定图片,DAS 模型通过一次前向预测输出图片中所包含人物的 3D 人体姿态。DAS 模型将人体中心点表示为中心点置信度图和中心点坐标图两部分,如图 1 (a) 和 (b) 所示,其中,DAS 模型使用中心点置信度图来定位 2D 图片坐标系中人体投影中心点的位置,而使用中心点坐标图来预测 3D 相机坐标系内人体中心点的绝对位置。DAS 模型将人体关键点建模为关键点偏移图,如图 1 (c) 所示。DAS 模型将中心点置信度图建模为二值图,图中每个像素点表示人体中心点是否在该位置出现,如果出现则为 1,否则为 0。DAS 模型将中心点坐标图以稠密图的方式进行建模,图中每个像素点编码了出现在该位置的人物中心在 x、y 和 z 方向的坐标。关键点偏移图和中心点坐标图建模方式类似,图中每个像素点编码了出现在该位置的人体关键点相对于人体中心点在 x、y、z 方向的偏移量。DAS 模型可以在网络前向过程中以并行的方式输出以上三种信息图,从而避免了冗余计算。此外,DAS 模型可以使用这三种信息图简单地重建出多个人的 3D 姿态,也避免了复杂的后处理过程,与两阶段方法相比,这样一种紧凑、简单的单阶段模型可以取得更优的效率。

 


图 1 用于多人 3D 人体姿态估计的分布感知式单阶段模型流程图

 

分布感知学习模型

 

对于回归预测框架的优化,已有工作多采用传统的 L1 或者 L2 损失函数,但研究发现这类监督训练实际上是在假设人体关键点的数据分布满足拉普拉斯分布或者高斯分布的前提下进行的模型优化[12]。然而在实际场景中,人体关键点的真实分布极为复杂,以上简单的假设与真实分布相距甚远。与现有方法不同,DAS 模型在优化过程中学习 3D 人体关键点分布的真实分布,指导关键点回归预测的过程。考虑到真实分布不可追踪的问题,DAS 模型利用标准化流(Normalizing Flow)来达到对于模型预测结果概率估计的目标,以生成适合模型输出的分布,如图 2 所示。该分布感知模块可以同关键点预测模块一起在训练过程中通过最大似然估计的方法进行学习,完成学习之后,该分布感知模块会在预测过程中进行移除,这样一种分布感知式算法可以在不增加额外计算量的同时提升回归预测模型的精度。此外,用于人体关键点预测的特征提取于人体中心点处,这一特征对于远离中心点的人体关键点来说表示能力较弱,和目标在空间上的不一致问题会引起预测的较大误差。为了缓和这一问题,该算法提出了迭代更新策略,该策略利用历史更新结果为出发点,并整合中间结果附近预测值以逐步逼近最终目标,如图 3 所示。

 

图 2 标准化流

    

图 3 迭代优化策略

                              

该算法模型通过全卷积网络(Fully Convolutional Networks, FCNs)实现,训练和测试过程都可以以端到端的方式进行,如图 4 所示。根据实验结果,如图 5 所示,单阶段算法和已有 state-of-the-art 两阶段方法相比,可以取得接近甚至更优的精度,同时可以大幅提升速度,证明了其在解决多人 3D 人体姿态估计这一问题上的优越性,详细实验结果可参考表 1 和表 2。根据单阶段算法的可视化结果,如图 6 所示,该算法能够适应不同的场景,例如姿势变化、人体截断以及杂乱背景等来产生精确的预测结果,这进一步说明了该算法的健壮性。


图 4 分布感知式单阶段多人 3D 人体姿态估计网络结构


图 5 与现有 state-of-the-art 两阶段算法对比结果


表 1 CMU Panoptic Studio 数据集结果比较         


表 2 MuPoTS-3D 数据集结果比较

 

图 6 可视化结果

 

总结

 

在本论文中,来自美图和北航的研究者们创新性地提出了一种分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。与已有的自顶向下和自底向上这种两阶段模型相比,该模型可以通过一次网络前向推理同时获取人体位置信息以及所对应的人体关键点位置信息,从而有效地简化预测流程,同时克服了已有方法在高计算成本和高模型复杂度方面的弊端。另外,该方法成功将标准化流引进到多人 3D 人体姿态估计任务中以在训练过程中学习人体关键点分布,并提出迭代回归策略以缓解分布学习难度来达到逐步逼近目标的目的。通过这样一种方式,该算法可以获取数据的真实分布以有效地提升模型的回归预测精度。


引用文献:


[1] JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.

[12] Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.

[15] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.

[47] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.

[48] Xingyi Zhou, Dequan Wang, and Philipp Kra ̈henbu ̈hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.

 

2022-03-22 11:075285

评论 1 条评论

发布
用户头像
cool
2022-03-23 16:06
回复
没有更多了
发现更多内容

三面阿里被挂,竟获内推名额,历经5面拿下口碑offer(Java后台)

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

论 Erda 的安全之道

尔达Erda

云原生 安全 企业数字化转型 云平台 开发平台

赛迪发布《2020-2021年中国IT服务市场研究年度报告》,联想位居第一梯队

科技大数据

科技互联网

你的工作有弹性么?

escray

学习 极客时间 朱赟的技术管理课 8月日更

九大核心专题,630页内容,熬夜23天吃透,我收割了3个大厂offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

这几个棘手的面试常见问题,如何高情商的回答?

架构精进之路

面试 情商 8月日更

2021全球开源技术峰会|IoT 时代的开源数据基础设施

EMQ映云科技

开源 IOT Platform IoT emq 开源技术

阿里云-云开发平台入门篇——静态网站的全生命周期实战

若尘

阿里云 8月日更

632页!我熬夜读完这份“高分宝典”,竟4面拿下字节跳动offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

2021第二届云原生编程挑战赛正式启动,抢先报名!

阿里巴巴云原生

阿里云 Serverless RocketMQ 云原生 dubbo

基于香港服务器的应用开发中测试数据管理的 3 个最佳实践

九河云安全

这本“算法宝典”讲得透彻,完全掌握后,我竟拿到字节跳动offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

iOS开发-为 iOS 编写 Kotlin Parcelize 编译器插件

iOSer

ios 编译器 编译器原理 iOS 知识体系 Kotlin Parcelize

如何实时打通数据孤岛?Tapdata 创始人唐建法受邀于GOTC深度分享

tapdata

数据库 打通数据孤岛 数据同步 Real Time DaaS GOTC

CC挖矿系统源码开发

获客I3O6O643Z97

挖矿 挖矿矿池系统开发案例 fil矿机

只需6步,教你从零开发一个签到小程序

华为云开发者联盟

小程序 App 移动 智慧校园 FunctionGraph

TrafficStatsRunnable 实用封装

Changing Lin

8月日更

推动数据中心行业的“水电煤”,可视化如何用数据改变传统产业?

一只数据鲸鱼

机房 数据可视化 数字孪生 智能IDC

如何保存数据并更快地从勒索软件攻击中恢复

九河云安全

Mysql读写锁保姆级图文教程

华为云开发者联盟

MySQL 数据 读写锁 读锁 MyLSAM

专业好用的数据恢复软件推荐

淋雨

EasyRecovery 文件恢复 硬盘数据恢复

Python代码阅读(第4篇):过滤掉列表中的唯一值

Felix

Python 编程 Code Programing 阅读代码

Serverless 全能选手,再添一“金”

Serverless Devs

Serverless 互联网 云原生

【Vue2.x 源码学习】第二十七篇 - Vue 生命周期的实现

Brave

源码 vue2 8月日更

防止数据丢失和减轻勒索软件攻击的 5 种方法

九河云安全

50 亿观众的 “云上奥运”,顶级媒体背后的数智化力量

阿里云视频云

阿里云 直播技术 视频制作 视频云 奥运

在阿里晋升3次,5年拿下P8岗位,这份pdf记录了我的整个成长过程

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

巨头纷纷布局分布式云,一场新的云战争即将打响

云计算

快来看,大数据两地三中心的容灾也可以如此省心!

华为云开发者联盟

大数据 数据湖 容灾 华为云MRS 两地三中心

服务器的升级,不可避免的安全问题

九河云安全

限12小时删!白嫖对标阿里P5—P8的Java学习路线+大厂刷题秘籍

Java架构追梦

Java 阿里巴巴 架构 面试

多人3D人体姿态估计问题新突破:美图&北航联合提出分布感知式单阶段模型_语言 & 开发_美图影像研究院(MT Lab)_InfoQ精选文章