报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

ECCV2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术

  • 2018-08-02
  • 本文字数:1576 字

    阅读完需:约 5 分钟

以往注意机制模型通过加权所有局部特征计算和提取关键特征,忽略了各局部特征间的强相关性,特征间存在较强的信息冗余。为解决此问题,来自美图云视觉技术部门和中科院自动化所的研发人员借鉴 PCA(主成分分析)思想,提出了一种引入局部特征交互感知的自注意机制模型,并将模型嵌入到 CNN 网络中,提出一个端到端的网络结构。该算法在多个学术数据集和美图公司内部工业界视频数据集上的行为分类表现都非常出色。基于该算法思想的相关论文“Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification”已被 ECCV2018 收录,下文将从背景、核心思想、效果和应用前景几个方面进行介绍。

一、背景

深度卷积神经网络中,特征图里相邻空间位置的局部通道特征,往往由于它们的感受野重叠而具有很高的相关性。自注意机制模型通常利用每个局部特征内部元素的加权和(或其他函数)来获得其权重得分,此权重用于加权所有局部特征获取关键特征。尽管局部特征之间具有很高的相关性,但此权重计算并没有考虑到它们之间的相互作用。

PCA 可以提取全局特征主要维度的主成分信息,而这些主成分信息可以看作是提取的局部特征,最后降维后的全局特征即是关键局部特征的集合。注意机制的目的是从局部特征集合中提取关键部分,也就是 PCA 中的局部特征。不同的是注意力机制使用每个局部特征对应的加权得分来计算最终的全局特征。PCA 利用协方差矩阵来获得降维(或加权权重)的基向量,从而减少特征间的信息冗余和噪声。基于以上背景,该团队使用 PCA 来指导提出的注意力模型,并通过将 PCA 算法转换成损失设计实现。此外,由于深度网络中的不同层可以捕获不同尺度的特征图,算法使用这些特征图来构造空间金字塔,利用多尺度信息来计算每个局部通道特征更精确的注意力分数,这些权重得分用于在所有空间位置中对局部特征进行加权。

二、核心思想

本论文定义了一个新的交互感知时空金字塔注意力层,以此实现输入在深度卷积神经网络中各个层的不同尺度局部特征的交互感知和时空特征融合的功能。它的架构如上图所示,算法首先定义了一个下采样函数 R, 将不同层的特征图统一到一个尺度。接着对不同尺度的特征图的局部通道特征使用注意力机制进行关键特征提取,通过使用融合函数对不同尺度的特征进行融合,并计算每个局部特征的注意力得分,用于加权特征。

在 PCA 中使用协方差矩阵计算投影向量并依此进行降维,即提取关键的局部特征,本论文将其转化损失函数的设计加入到最终的模型中:

再对提出的空间金字塔注意力模型进行约束,使其不同尺度层的特征图尽量关注到不同的信息,加入分类损失得出最终的损失函数:

论文提出的模型参数与输入特征图的数目无关,因此,自然地将其拓展到视频级端到端训练的时空网络,最终的网络结构定义如下图:

三、效果

研发人员将提出的基于交互感知的时空金字塔注意力机制神经网络算法应用于美图公司的视频相关业务进行人物行为分类,效果表现优异。除此之外在公开数据集 UCF101、HMDB51 和无裁剪行为数据库 Charades 上进行了评测,也取得了领先效果,结果如下图所示:

此外,该论文对视频时空输入进行了评测,评测结果显示出该模型能够同时处理任意数量的视频帧输入,并取得较好的实验结果。

上图给出了该算法在进行行为分类时的可视化输出结果,可以看出该算法能够对视频中关键的行为进行精确定位。

四、展望

实际应用中,业务场景对算法的运行时间要求较严苛。本论文在公开数据集上的结果均通过截取视频中的多帧得到,时间复杂度较高,后续会以降低算法时间复杂度为目标对核心模块进行优化。值得注意的是,本论文提出的空间金字塔注意力模型不受其输入特征图数量的限制,因此它很容易扩展到一个可以兼容任意数量的输入帧的时空版本,在应用中可以在分类准确率几乎不受影响的前提下,通过减少截帧数提升处理速度。

2018-08-02 18:251984

评论 1 条评论

发布
暂无评论
发现更多内容

焱融看 | 混合云时代下,如何制定多云策略

焱融科技

存储 文件存储 混合云 多云

大数据培训 | Scala语言知识分享,直击面试

@零度

scala 大数据开发

6年技术迭代,阿里全球化出海&合规的挑战和探索

阿里技术

阿里巴巴 最佳实践 方法论 全球化

一文读懂TDengine的窗口查询功能

TDengine

tdengine 时序数据库

研发效能度量框架解读

思码逸研发效能

研发效能 效能度量

leetcode 322. Coin Change 零钱兑换(中等)

okokabcd

LeetCode 动态规划 算法与数据结构

Fiori 应用通过 Adaptation Project 的增强方式分享

汪子熙

前端开发 SAP Fiori SAP UI5 7月月更

使用强大的DBPack处理分布式事务(PHP使用教程)

峨嵋闲散人

分布式事务 分库分表 读写分离 seata dbmesh

向Spring框架学习设计模式

慕枫技术笔记

设计模式 spring框架 7月月更

2022上半年英特尔有哪些“硬核创新”?看这张图就知道了!

科技之家

介绍一种对 SAP GUI 里的收藏夹事务码管理工具增强的实现方案

汪子熙

SAP abap SAPGUI 企业管理软件 7月月更

[Ljava.lang.Object;是什么?

okokabcd

Java

数据湖系列之一 | 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体

Baidu AICLOUD

大数据 数据仓库 数据湖 对象存储 湖仓一体

龙蜥社区开源 coolbpf,BPF 程序开发效率提升百倍

OpenAnolis小助手

Linux 开源 内核 龙蜥技术 BPF

SAP 智能机器人流程自动化(iRPA)解决方案分享

汪子熙

SAP 业务流程自动化 7月月更 企业自动化 iRPA

Linux设备驱动1:硬件基础

贾献华

7月月更

SpringSecurity的初始化流程

急需上岸的小谢

7月月更

2022 · 让我带你Jetpack架构组件从入门到精通 — Lifecycle

编程的平行世界

an'droid android jetpack

JVM有哪些类加载机制?

源字节1号

软件开发

学会使用LiveData和ViewModel,我相信会让你在写业务时变得轻松🌞

编程的平行世界

JetPack Andriod

洞态在某互联⽹⾦融科技企业的最佳落地实践

火线安全

漏洞检测 IAST

孔松(信通院)-数字化时代云安全能力建设及趋势

火线安全

云安全 云安全技术 云安全研究

刘对(火线安全)-多云环境的风险发现

火线安全

云安全 云安全技术 云安全研究

60 个前端 Web 开发流行语你都知道哪些?

海拥(haiyong.site)

前端 Web 7月月更

进入前六!博云在中国云管理软件市场销量排行持续上升

BoCloud博云

云原生 cmp 云管理

开源者的自我修养|为 ShardingSphere 贡献了千万行代码的程序员,后来当了 CEO

SphereEx

开源 代码 ShardingSphere

SpringBoot工程创建Swagger文档并自动生成调用代码

百家饭隐私计算平台创业者

JavaScript Spring Boot swagger

web前端培训Docker入门指南

@零度

Docker 前端开发

陈宇(Aqua)-安全->云安全->多云安全

火线安全

云安全 云安全技术 云安全研究

当你真的学会DataBinding后,你会发现“这玩意真香”!

编程的平行世界

JetPack andiod

Java培训 | 详解 Linux 中的权限,这一篇就够了

@零度

Linux JAVA开发

ECCV2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术_语言 & 开发_美图云视觉技术部门_InfoQ精选文章