写点什么

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

  • 2020-09-10
  • 本文字数:2834 字

    阅读完需:约 9 分钟

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享

近日,计算机视觉三大国际顶级会议之一的 ECCV 2020 如约而至,COCO 作为 ECCV 2020 的重头戏,是人工智能领域最具影响力的图像(物体)识别挑战赛。本次大会,芯翌科技(XForwardAI)拿下了 COCO 视觉挑战赛—人体关键点检测赛道世界第一,在目标检测/实例分割赛道也取得了不错的成绩。



COCO (Common Objects in Context) 数据集是由微软研究院提出的大规模计算机视觉数据集,致力于对常见视觉任务(包括目标检测、实例分割、人体关键点检测、全景分割等)进行分析与评测。与之前的 PASCAL VOC、ImageNet 数据集不同的是,COCO 数据集场景更加复杂、任务更加丰富、更接近实际应用。


基于 COCO 数据集,Facebook 人工智能研究院、谷歌研究院、加州理工学院等联合在每年的 ICCV 或 ECCV 会议上组织举办 COCO 系列视觉挑战赛。历年的 COCO 挑战赛是人工智能领域最具影响力的图像(物体)识别挑战赛,也代表了继 ImageNet 后图像(物体)识别的较高水平,在学术界和工业界具有很高的认可度和知名度。国内外知名的人工智能企业和科研机构如谷歌、Facebook、微软、清华大学、北京大学、商汤科技、旷视科技等均组队参加过历届 COCO 系列比赛。


今年的 COCO 比赛由 ECCV 2020 会议的 COCO-LVIS Joint Workshop 举办,共包括目标检测/实例分割、人体关键点检测、全景分割等赛道。芯翌科技(XForwardAI)算法团队此次参加了前两个赛道。在人体关键点检测赛道,芯翌科技获得了冠军,此次成绩在 test-dev 测评集上 AP 指标为 80.8%,相比较去年冠军方案(AP 指标为 79.2%)有了重大提升;在最终的 test-challenge 测评集上 AP 指标为 77.4%,刷新了该赛道的历史最好成绩。在目标检测/实例分割赛道,芯翌科技也取得了排名前列的成绩。



在人体关键点检测赛道,芯翌科技名列前茅

突破

芯翌科技算法团队在此次夺冠中使用了多项原创性技术创新,包括 CodeBase 可靠性的改善,以及在监督方面让网络更加关注约束信息。



论文地址:


https://arxiv.org/abs/1911.07524


代码地址:


https://github.com/HuangJunJie2017/UDP-Pose

人体姿态估计中无偏的数据处理


如上图所示,人体姿态估计任务中的数据处理主要包含两个环节:数据在不同坐标轴之间的变换和关键点坐标的编码解码。基于此,人体姿态估计任务中数据处理流可以用以下公式进行建模:



而无偏的数据处理则需要满足数据流的输入与输出严格相同,即:



由于评测会对偏差直接作出惩罚,无偏的数据处理对于高精度的人体姿态估计极为重要。此外,潜藏在数据流中的偏差会对研究造成严重的干扰,无偏的数据流是可靠 codebase 必不可少的特征。


芯翌科技的研究人员通过对现有的 codebase 进行推理分析,发现现有 SOTA 工作的数据处理中普遍存在偏差,这些偏差存在于上述两个环节中并相互耦合。一方面直接影响了算法的性能表现,另外一方面为后续的研究埋下了难以察觉的隐患。基于严格的数学推理,研究人员提出用于人体姿态估计无偏的数据处理流作为解决方案,在大幅度提升现有工作的性能表现的同时,为后续研究提供可靠的基础。



论文地址:


https://arxiv.org/abs/2008.07139


在提出 UDP 构建可靠的 CodeBase 之后,芯翌科技的研究人员又对人体姿态估计的性能瓶颈进行了分析。近几年来网络结构的改进是研究的重点,涌现了 SimpleBaseline, MSPN, HRNet, RSN 等一系列具有代表性的工作。而监督方面则一直沿用着位于关键点处的高斯响应图作为监督,此监督设计直观,其有效性也已被广泛证明。然而这种看似完美的监督是否存在缺点呢?答案是肯定的。


研究人员指出人类在定位图像中的人体关键点时使用了两种信息,外观信息和约束信息。外观信息是定位关键点的基础,而约束信息则在定位困难关键点时具有重要的指导意义。约束信息主要包含人体关键点之间固有的相互约束关系以及人体和环境交互形成的约束关系。直观上看,约束信息相比外观信息而言更复杂多样,对于网络而言学习难度更大,这会使得在外观信息充分的情况下,存在约束条件被忽视的可能。研究人员基于此假设,引入信息丢弃的正则化手段,通过在训练过程中以一定的概率丢弃关键点的外观信息,以此避免训练过程过拟合外观信息而忽视约束信息。



各种信息丢弃方法


虽然随机丢弃外观信息可以避免训练过程过拟合外观信息,但是由于外观信息是视觉定位人体关键点的基础,外观信息的缺乏会使得训练前期收敛较慢,网络需要一个更长训练周期才能达到完全收敛。




在实验中,研究人员通过使用多种基线验证了上述假设的合理性以及所提出方法的有效性。有趣的是,在不同的 baseline 上所提出的方法表现惊人的一致,这个一方面反映了这种过拟合外观信息的问题是广泛存在的,修改网络,增加数据并不能解决这个问题。另外一个方面也验证信息丢弃可以有效遏制这个问题。



下图中研究人员可视化了一些网络预测的结果,和标注结果以及没有使用信息丢弃增广时得到的结果进行比较。在外观信息缺乏或者外观信息具有迷惑性的场景中,约束信息显得尤为重要,而使用信息丢弃增广训练得到的模型,在这些情况下对关键点的定位更准确、合理。



结果可视化,从左到右分别是:标注结果、使用信息丢弃增广后的结果和没有使用信息丢弃增广的结果



2020 COCO Keypoint Challenge XForwardAI Road Map


芯翌科技的研究人员以开源的 HRNet CodeBase 为基础,通过技术突破把 HRNet-W32-256x192 配置的得分提升到 76.8AP。由于改进不针对网络结构,后续的增大网络容量和输入分辨率,以及增加训练数据等一系列操作均可带来稳定的提升。


此外因为沿用 top-down 的方法(先检测人,然后对每个 instance 进行关键点定位),人体检测的效果对最后人体姿态估计指标的影响接近线性。在通用目标检测赛道上,芯翌科技最终得分接近 60AP(bbox/test-dev),人体检测结果可为人体关键点检测提供一定程度的优势。


最后研究人员融合了多个关键点检测模型的结果,在 test-dev 上达到 80.8AP,远超历年冠军。在 test-challenge 上得分为 77.4AP,刷新了该赛道上的历史最高成绩的同时夺得该赛道的冠军。

总结与展望

芯翌科技的研究人员针对人体姿态估计问题提出了无偏的数据处理方法以及信息丢弃的正则化方法,在 CodeBase 的可靠性以及算法的鲁棒性两个方面作出突破。凭借技术创新,芯翌科技在 COCO 挑战赛的人体姿态估计赛道上成功夺冠。在未来,芯翌科技将坚持把基础做牢并不断探索和突破人工智能算法的上限。


作者介绍:


黄骏杰,芯翌科技算法工程师,人体姿态估计专家,2020 CVPR 论文一作,2020 年 COCO Challenge 人体关键点检测赛道冠军。专注于人体姿态识别,人脸识别等领域的研究和应用。


黄冠,芯翌科技算法研发总监,算法团队负责人。拥有近十年的深度学习、计算机视觉、自然语言处理相关经验,是国内最早开展深度学习用于目标检测、分割、关键点的一批人。多次带领团队获得 NIST-FRVT、COCO 等国际知名人工智能比赛优异成绩,在人工智能顶级会议和期刊上发表多篇论文,带领算法团队支撑了多个大规模智慧城市和复杂工业场景的业务落地,拥有丰富的学术研究和工业界产业落地研发经验。


2020-09-10 08:002232

评论

发布
暂无评论
发现更多内容

Docker(二)Docker-Compose、网络、数据卷

神农写代码

zookeeper-ACL权限相关

zarmnosaj

7月月更

Linux Lab 会议或直播安排与记录

贾献华

7月月更

包装类型

7月月更

手动上传表单数据+图片文件功能

猪痞恶霸

前端 7月月更

GNU/Linux知识库(4)- 用户 & 权限

冯亮

Linux DevOps 操作系统 GNU

项目管理系统选择有哪些需要注意的点?

爱吃小舅的鱼

项目管理

【漫步刷题路】- 逆序字符串II

芒果酱

7月月更

曾经辉煌一世的流媒体协议RTMP是什么样的?它能完全被取代吗?一文带您走进RTMP的世界

wljslmz

RTMP 7月月更 流媒体协议

【刷题记录】11. 盛最多水的容器

WangNing

7月月更

谈Java Record类

ES_her0

7月月更

异步 API 设计之扇入扇出模式

宇宙之一粟

API 7月月更

Python已有列表和字典,为什么还需要元组?

迷彩

Python Python基础知识 元组 7月月更

jQuery 的事件绑定

Jason199

jquery js 7月月更

长安链中的加密算法

长安链

Flutter 模拟火箭发射动画

岛上码农

flutter ios 移动端开发 安卓开发 7月月更

Codeforces Round #787 (Div. 3)

KEY.L

7月月更

Istio组件Mixer介绍

阿泽🧸

istio 7月月更

【愚公系列】2022年07月 Java教学课程 04-Java语言三种注释

愚公搬代码

7月月更

AWS Config

冯亮

云计算 DevOps 架构师 AWS 产品解决方案

小程序媒体组件-1

小恺

7月月更

金融行业开放平台

穿过生命散发芬芳

7月月更 开放平台

计算机组成原理之计算机最基本的工作原理

未见花闻

7月月更

玩转Liunx系统,看这篇文章就够了(三)

Java学术趴

7月月更

Serverless模板重磅上线!多场景覆盖、小时级快速集成

最新动态

新书上市 | 图解、幽默、有趣、简单的 Java 书

图灵教育

Java 程序员 计算机

解读《深入理解计算机系统(CSAPP)》第11章网络编程

小明Java问道之路

网络编程 socket csapp intel 7月月更

电商平台数据可视化监控系统-Echarts-vue项目综合练习

武师叔

7月月更

【Docker 那些事儿】容器数据卷的妙手

Albert Edison

Docker Kubernetes 容器 云原生 7月月更

接口测试——流程测试支持批量参数导入,测试效率直接拉满

Xd

Java 数据库 程序员 接口测试工具

把项目打包成docker镜像,并发布到腾讯云?DockerHub!

为自己带盐

Dockerhub 7月月更 dotnetcore

ECCV 2020 | COCO 视觉挑战赛揭榜,人体关键点检测赛道冠军技术干货分享_AI&大模型_黄骏杰_InfoQ精选文章