OPPO 研究院智能感知与交互研究部近期在国际顶级计算机视觉会议 CVPR 的多项比赛中获得领先成绩,本文将对其中一项研究成果进行概要性介绍。在论文《Visual Localization Using Semantic Segmentation and Depth Prediction》中,研究团队为视频行为识别提出了全新的工作流程,极大地提高了处理效率与识别精度。
1 背景
行为检测识别是计算机视觉近些年的一个重要发展方向,从基于 Kinetics 的 trimmed activity recognition 任务,到基于 AVA 的 spatial-temporal action localization 任务,逐步往更细致化、实用化的方向发展,核心聚焦于识别何时何地发生了什么行为。本次 ActivityNet Task D ActEV SDL, 属于真实场景的行为识别,主要基于 MEVA 数据进行研究。
目前在 spatial-temporal action localization 问题上,比较主流的方法是先单独提取人体检测结果,将视频输入 3D Conv 模型,在最后的 feature map 上结合检测结果进行特征提取。在 AVA(Atomic Visual Actions)数据库中定义的行为都是原子级的,持续时间短,因此用一帧的检测结果就能抽取对齐的行为特征。
然而在真实场景 MEVA 数据库上,主要会面临如下新问题:
原始视频分辨率高,人体尺寸小,为了保证召回,不能对图像进行缩放预处理,全图抽取 3D Conv 特征计算复杂度极高。
MEVA 定义的行为非原子级别,行为持续时间不固定,人体框移动范围大,无法用单帧检测结果准确描述特征。
行为定义复杂,涉及人体行为,车辆运动行为,人车交互行为。
场景多样性,包含室内、室外、人流高密度等复杂场景。
2 方法
ActEV SDL 是 ActivityNet20 guest task,由美国标准局 NIST 主办,需要参赛者提交整套软件系统,从而保证结果公平性、可复现,这里从系统框架开始介绍整体解决方案。
系统框架:
上图是我们的系统框架,检测跟踪用于提取人体和车辆 tracklet;候选生成模块用来处理原始 tracklet 结果,生成后续行为分类所需的固定长度切片及人车交互片段;行为分类模块基于 tracklet 切片,裁剪局部范围上下文区域,结合检测结果及 3D Conv 进行分类;结果融合模块将结果切分的 proposal 结果再进行融合,形成最终结果。本工作主要聚焦于行为分类,后面介绍行为分类主体网络。
主体网络:
首先我们将行为识别任务分成人相关 19 类、车相关 6 类以及人车交互相关 8 类,总共三个分类模型。
其次,我们基于 tracklet 切片结果,设计了上下文区域选取逻辑,保证两个条件:第一,选取区域在整个视频片段中固定,而非随着人体位置变动而偏移;第二,包含一定背景区域,这对于一些交互性行为类别很有帮助。最终的选取原则是,基于 tracklet 切片中间帧的中心位置为区域中心,裁剪的长宽为中间帧检测长宽最大值的两倍。后续实验结果证明,该上下文区域选取有较好的效果。
我们的 3D Conv 模型类似于 SlowFast 的结构,但对两个分支都进行了修改以适应 MEVA 数据行为的特点:低帧率的 SlowPath,在最后一层特征上不进行检测框的特征提取,以保留所有上下文信息;高帧率的 FastPath 在最后 feature map 上结合时域对齐后的多帧检测结果,经过 multi-frame RoiAlign,提取到了 multi-frame feature 再 concatenate 进行分类,充当了一个前景分支的作用。这样的好处是例如骑自行车、进出门等行为类别,检测框在短时间内移动得非常明显,基于单帧抽取的 feature 存在明显的不对齐问题,因此 multiframe 特征能更好地对行为进行描述。分类实验结果也表明这个操作在 MEVA 上优势明显。
3 效果
上图是分类模块的实验结果,可以从人体 19 分类的任务结果看出,多帧对齐特征的优势明显,尤其在开关门、进出场景、骑自行车等类别。
上图是 NIST 测试集上最终的指标结果,PARTIAL AUDC*是评价指标,我们一共提交了两个版本的软件解决方案,一个采用 Ensemble 策略以及 5FPS 的检测频率,另一个未采用 Ensemble 以及稍低的检测 FPS,两者在运行时间上有较大变化,在指标上仅有一个点的差异。
该比赛吸引了全球范围很多行为识别方面的顶级研究机构,例如 UCF、CMU、UMD、Purdue、IBM 等,最终 OPPO 取得了第三的成绩。
评论