OPPO研究院行为识别技术新进展：结合前景分支模型，提高真实复杂场景人体行为识别能力-InfoQ

GTLC全球技术领导力峰会·上海站，首批讲师正式上线！了解详情 



 写点什么

OPPO研究院行为识别技术新进展：结合前景分支模型，提高真实复杂场景人体行为识别能力

OPPO 研究院智能感知与交互研究部近期在国际顶级计算机视觉会议 CVPR 的多项比赛中获得领先成绩，本文将对其中一项研究成果进行概要性介绍。在论文《Visual Localization Using Semantic Segmentation and Depth Prediction》中，研究团队为视频行为识别提出了全新的工作流程，极大地提高了处理效率与识别精度。

1 背景

行为检测识别是计算机视觉近些年的一个重要发展方向，从基于 Kinetics 的 trimmed activity recognition 任务，到基于 AVA 的 spatial-temporal action localization 任务，逐步往更细致化、实用化的方向发展，核心聚焦于识别何时何地发生了什么行为。本次 ActivityNet Task D ActEV SDL，属于真实场景的行为识别，主要基于 MEVA 数据进行研究。

目前在 spatial-temporal action localization 问题上，比较主流的方法是先单独提取人体检测结果，将视频输入 3D Conv 模型，在最后的 feature map 上结合检测结果进行特征提取。在 AVA（Atomic Visual Actions）数据库中定义的行为都是原子级的，持续时间短，因此用一帧的检测结果就能抽取对齐的行为特征。

然而在真实场景 MEVA 数据库上，主要会面临如下新问题：

原始视频分辨率高，人体尺寸小，为了保证召回，不能对图像进行缩放预处理，全图抽取 3D Conv 特征计算复杂度极高。
MEVA 定义的行为非原子级别，行为持续时间不固定，人体框移动范围大，无法用单帧检测结果准确描述特征。
行为定义复杂，涉及人体行为，车辆运动行为，人车交互行为。
场景多样性，包含室内、室外、人流高密度等复杂场景。

2 方法

ActEV SDL 是 ActivityNet20 guest task，由美国标准局 NIST 主办，需要参赛者提交整套软件系统，从而保证结果公平性、可复现，这里从系统框架开始介绍整体解决方案。

系统框架：

上图是我们的系统框架，检测跟踪用于提取人体和车辆 tracklet；候选生成模块用来处理原始 tracklet 结果，生成后续行为分类所需的固定长度切片及人车交互片段；行为分类模块基于 tracklet 切片，裁剪局部范围上下文区域，结合检测结果及 3D Conv 进行分类；结果融合模块将结果切分的 proposal 结果再进行融合，形成最终结果。本工作主要聚焦于行为分类，后面介绍行为分类主体网络。

主体网络：

首先我们将行为识别任务分成人相关 19 类、车相关 6 类以及人车交互相关 8 类，总共三个分类模型。

其次，我们基于 tracklet 切片结果，设计了上下文区域选取逻辑，保证两个条件：第一，选取区域在整个视频片段中固定，而非随着人体位置变动而偏移；第二，包含一定背景区域，这对于一些交互性行为类别很有帮助。最终的选取原则是，基于 tracklet 切片中间帧的中心位置为区域中心，裁剪的长宽为中间帧检测长宽最大值的两倍。后续实验结果证明，该上下文区域选取有较好的效果。

我们的 3D Conv 模型类似于 SlowFast 的结构，但对两个分支都进行了修改以适应 MEVA 数据行为的特点：低帧率的 SlowPath，在最后一层特征上不进行检测框的特征提取，以保留所有上下文信息；高帧率的 FastPath 在最后 feature map 上结合时域对齐后的多帧检测结果，经过 multi-frame RoiAlign，提取到了 multi-frame feature 再 concatenate 进行分类，充当了一个前景分支的作用。这样的好处是例如骑自行车、进出门等行为类别，检测框在短时间内移动得非常明显，基于单帧抽取的 feature 存在明显的不对齐问题，因此 multiframe 特征能更好地对行为进行描述。分类实验结果也表明这个操作在 MEVA 上优势明显。