写点什么

多人 3D 人体姿态估计问题新突破:美图 & 北航联合提出分布感知式单阶段模型

  • 2022-03-22
  • 本文字数:3691 字

    阅读完需:约 12 分钟

多人3D人体姿态估计问题新突破:美图&北航联合提出分布感知式单阶段模型

近日,计算机视觉顶会 CVPR 2022 公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收。该论文突破性地提出分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。该方法通过一次网络前向推理同时获取 3D 空间中人体位置信息以及相对应的关键点信息,从而简化了预测流程,提高了效率。此外,该方法有效地学习了人体关键点的真实分布,进而提升了基于回归框架的精度。

 

多人 3D 人体姿态估计是当前的一个热点研究课题,也具有广泛的应用潜力。在计算机视觉中,基于单张 RGB 图片的多人 3D 人体姿态估计问题通常通过自顶向下或是自底向上的两阶段方法来解决,然而两阶段的方法需忍受大量的冗余计算以及复杂的后处理,其低效率深受诟病。此外,已有方法缺少对人体姿态数据分布的认知,从而无法准确地求解从 2D 图片到 3D 位置这一病态问题,以上两点限制了已有方法在实际场景中的应用。

 

美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)在 CVPR 2022 发表的论文,提出一种分布感知式单阶段模型,并利用这一模型从单张 RGB 图片中估计多个人在 3D 相机空间中的人体姿态。该方法将 3D 人体姿态表示为 2.5D 人体中心点和 3D 关键点偏移量,以适配图片空间的深度估计,同时这一表示将人体位置信息和对应的关键点信息进行了统一,从而使得单阶段多人 3D 姿态估计成为可能。

 

此外,该方法在模型优化过程中对人体关键点的分布进行了学习,这为关键点位置的回归预测提供了重要的指导信息,进而提升了基于回归框架的精度。这一分布学习模块可以与姿态估计模块在训练过程中通过最大似然估计一起学习,在测试过程中该模块被移除,不会带来模型推理计算量的增加。为了降低人体关键点分布学习的难度,该方法创新性地提出了一种迭代更新的策略以逐渐逼近目标分布。

 

该模型以全卷积的方式来实现,可以进行端到端的训练和测试。通过这样一种方式,该算法可以有效且精准地解决多人 3D 人体姿态估计问题,在取得和两阶段方法接近的精度的同时,也大大提升了速度。

 

论文链接:https://arxiv.org/abs/2203.07697

 

背景

 

多人 3D 人体姿态估计是计算机视觉中的经典问题,它被广泛地应用于 AR/VR、游戏、运动分析、虚拟试衣等,近年来随着元宇宙概念的兴起,更是让这一技术备受关注。目前,通常采用两阶段方法来解决该问题:自顶向下方法,即先检测图片多个人体的位置,之后对检测到的每个人使用单人 3D 姿态估计模型来分别预测其姿态;自底向上方法,即先检测图片中所有人的 3D 关键点,之后通过相关性将这些关键点分配给对应的人体。

 

尽管两阶段方法取得了良好的精度,但是需要通过冗余的计算和复杂的后处理来顺序性地获取人体位置信息和关键点位置信息,这使得速率通常难以满足实际场景的部署需求,因此多人 3D 姿态估计算法流程亟需简化。另一方面,在缺少数据分布先验知识的情况下,从单张 RGB 图片中估计 3D 关键点位置,特别是深度信息,是一个病态问题。这使得传统的应用于 2D 场景的单阶段模型无法直接向 3D 场景进行扩展,因此学习并获取 3D 关键点的数据分布是进行高精度多人 3D 人体姿态估计的关键所在。

 

为了克服以上问题,该论文提出了一种分布感知式单阶段模型(Distribution-Aware Single-stage model, DAS)用于解决基于单张图片的多人 3D 人体姿态估计这一病态问题。DAS 模型将 3D 人体姿态表示为 2.5D 人体中心点和 3D 人体关键点偏移,这一表示有效地适配了基于 RGB 图片域的深度信息预测。同时,它也将人体位置信息和关键点位置信息进行了统一,从而使得基于单目图片的单阶段多人 3D 姿态估计方法成为可能。另外,DAS 模型在优化过程中对 3D 关键点的分布进行学习,这为 3D 关键点的回归提供了极具价值的指导性信息,从而有效地提升了预测精度。此外,为了缓解关键点分布估计的难度,DAS 模型采用了一种迭代更新策略以逐步逼近真实分布目标,通过这样一种方式,DAS 模型可以高效且精准地从单目 RGB 图片中一次性获取多个人的 3D 人体姿态估计结果。

 

单阶段多人 3D 姿态估计模型

 

在实现上,DAS 模型基于回归预测框架来构建,对于给定图片,DAS 模型通过一次前向预测输出图片中所包含人物的 3D 人体姿态。DAS 模型将人体中心点表示为中心点置信度图和中心点坐标图两部分,如图 1 (a) 和 (b) 所示,其中,DAS 模型使用中心点置信度图来定位 2D 图片坐标系中人体投影中心点的位置,而使用中心点坐标图来预测 3D 相机坐标系内人体中心点的绝对位置。DAS 模型将人体关键点建模为关键点偏移图,如图 1 (c) 所示。DAS 模型将中心点置信度图建模为二值图,图中每个像素点表示人体中心点是否在该位置出现,如果出现则为 1,否则为 0。DAS 模型将中心点坐标图以稠密图的方式进行建模,图中每个像素点编码了出现在该位置的人物中心在 x、y 和 z 方向的坐标。关键点偏移图和中心点坐标图建模方式类似,图中每个像素点编码了出现在该位置的人体关键点相对于人体中心点在 x、y、z 方向的偏移量。DAS 模型可以在网络前向过程中以并行的方式输出以上三种信息图,从而避免了冗余计算。此外,DAS 模型可以使用这三种信息图简单地重建出多个人的 3D 姿态,也避免了复杂的后处理过程,与两阶段方法相比,这样一种紧凑、简单的单阶段模型可以取得更优的效率。

 


图 1 用于多人 3D 人体姿态估计的分布感知式单阶段模型流程图

 

分布感知学习模型

 

对于回归预测框架的优化,已有工作多采用传统的 L1 或者 L2 损失函数,但研究发现这类监督训练实际上是在假设人体关键点的数据分布满足拉普拉斯分布或者高斯分布的前提下进行的模型优化[12]。然而在实际场景中,人体关键点的真实分布极为复杂,以上简单的假设与真实分布相距甚远。与现有方法不同,DAS 模型在优化过程中学习 3D 人体关键点分布的真实分布,指导关键点回归预测的过程。考虑到真实分布不可追踪的问题,DAS 模型利用标准化流(Normalizing Flow)来达到对于模型预测结果概率估计的目标,以生成适合模型输出的分布,如图 2 所示。该分布感知模块可以同关键点预测模块一起在训练过程中通过最大似然估计的方法进行学习,完成学习之后,该分布感知模块会在预测过程中进行移除,这样一种分布感知式算法可以在不增加额外计算量的同时提升回归预测模型的精度。此外,用于人体关键点预测的特征提取于人体中心点处,这一特征对于远离中心点的人体关键点来说表示能力较弱,和目标在空间上的不一致问题会引起预测的较大误差。为了缓和这一问题,该算法提出了迭代更新策略,该策略利用历史更新结果为出发点,并整合中间结果附近预测值以逐步逼近最终目标,如图 3 所示。

 

图 2 标准化流

    

图 3 迭代优化策略

                              

该算法模型通过全卷积网络(Fully Convolutional Networks, FCNs)实现,训练和测试过程都可以以端到端的方式进行,如图 4 所示。根据实验结果,如图 5 所示,单阶段算法和已有 state-of-the-art 两阶段方法相比,可以取得接近甚至更优的精度,同时可以大幅提升速度,证明了其在解决多人 3D 人体姿态估计这一问题上的优越性,详细实验结果可参考表 1 和表 2。根据单阶段算法的可视化结果,如图 6 所示,该算法能够适应不同的场景,例如姿势变化、人体截断以及杂乱背景等来产生精确的预测结果,这进一步说明了该算法的健壮性。


图 4 分布感知式单阶段多人 3D 人体姿态估计网络结构


图 5 与现有 state-of-the-art 两阶段算法对比结果


表 1 CMU Panoptic Studio 数据集结果比较         


表 2 MuPoTS-3D 数据集结果比较

 

图 6 可视化结果

 

总结

 

在本论文中,来自美图和北航的研究者们创新性地提出了一种分布感知式单阶段模型,用于解决极具挑战性的多人 3D 人体姿态估计问题。与已有的自顶向下和自底向上这种两阶段模型相比,该模型可以通过一次网络前向推理同时获取人体位置信息以及所对应的人体关键点位置信息,从而有效地简化预测流程,同时克服了已有方法在高计算成本和高模型复杂度方面的弊端。另外,该方法成功将标准化流引进到多人 3D 人体姿态估计任务中以在训练过程中学习人体关键点分布,并提出迭代回归策略以缓解分布学习难度来达到逐步逼近目标的目的。通过这样一种方式,该算法可以获取数据的真实分布以有效地提升模型的回归预测精度。


引用文献:


[1] JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.

[12] Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.

[15] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.

[47] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.

[48] Xingyi Zhou, Dequan Wang, and Philipp Kra ̈henbu ̈hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.

 

2022-03-22 11:076133

评论 1 条评论

发布
用户头像
cool
2022-03-23 16:06
回复
没有更多了
发现更多内容

浅谈指标体系建设(二)

圣迪

指标体系 指标

共享

mtfelix

28天写作

JavaScript中的这些内置对象

你好bk

JavaScript 大前端 数组 html/css 12月日更

List 去重的 6 种方法,这个方法最完美!

王磊

声网 X 远程超声:实时音视频解决基层“看病难” 推动医疗资源均衡化

声网

人工智能 音视频

【LeetCode】字母异位词分组Java题解

Albert

算法 LeetCode 12月日更

自我改变的意义

卢卡多多

28天写作 技术改变生活 12月日更

《重学Java高并发》手写一个生产者消费者线程模型

中间件兴趣圈

Java高并发 生产者消费者模型

xxxx

guangbao

AI安全领域的“雨山机车大赛”,改变了什么?

脑极体

大白话解析 MySQL 中的 MCCC 机制

悟空聊架构

MySQL MVCC 28天写作 悟空聊架构 12月日更

2021年度人工智能最佳产品TOP10!百度飞桨EasyDL再获业界认可

百度大脑

人工智能

了解学习 JSX 的工作方式

devpoint

React JSX 12月日更

架构实训营

ren

5.《重学JAVA》--编码规范

杨鹏Geek

Java 25 周年 28天写作 12月日更

非专业的系统安全规范

张老蔫

28天写作

全员客户成功

boshi

随笔杂谈

36 K8S之角色控制访问

穿过生命散发芬芳

k8s 28天写作 12月日更

LongAdder解析

程序员历小冰

28天写作 并发’ 12月日更

保存并提交修改后的容器镜像

liuzhen007

28天写作 12月日更

被寄予厚望的区块链在数据交易中能发挥的作用是什么?

CECBC

如何“对抗”听众的短时记忆

将军-技术演讲力教练

模块一学习总结

Only

「架构实战营」

.NET 6新东西--nuget包验证

喵叔

28天写作 12月日更

IT 好文&好课分享

hackstoic

web安全之CSRF

喀拉峻

网络安全

【架构师训练营】模块一作业

樰巳-堕~Horry

架构实战营 「架构实战营」

如何提升工作意义感?

石云升

28天写作 职场经验 12月日更

【AI最前线】精准优质-资讯|分享|热议第43期

百度大脑

人工智能

模块一作业

撿破爛ぃ

「架构实战营」

在 Ubuntu 上安装使用极狐GitLab Runner

极狐GitLab

CI/CD runner 极狐GitLab

多人3D人体姿态估计问题新突破:美图&北航联合提出分布感知式单阶段模型_语言 & 开发_美图影像研究院(MT Lab)_InfoQ精选文章