写点什么

ECCV2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术

  • 2018-08-02
  • 本文字数:1576 字

    阅读完需:约 5 分钟

以往注意机制模型通过加权所有局部特征计算和提取关键特征,忽略了各局部特征间的强相关性,特征间存在较强的信息冗余。为解决此问题,来自美图云视觉技术部门和中科院自动化所的研发人员借鉴 PCA(主成分分析)思想,提出了一种引入局部特征交互感知的自注意机制模型,并将模型嵌入到 CNN 网络中,提出一个端到端的网络结构。该算法在多个学术数据集和美图公司内部工业界视频数据集上的行为分类表现都非常出色。基于该算法思想的相关论文“Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification”已被 ECCV2018 收录,下文将从背景、核心思想、效果和应用前景几个方面进行介绍。

一、背景

深度卷积神经网络中,特征图里相邻空间位置的局部通道特征,往往由于它们的感受野重叠而具有很高的相关性。自注意机制模型通常利用每个局部特征内部元素的加权和(或其他函数)来获得其权重得分,此权重用于加权所有局部特征获取关键特征。尽管局部特征之间具有很高的相关性,但此权重计算并没有考虑到它们之间的相互作用。

PCA 可以提取全局特征主要维度的主成分信息,而这些主成分信息可以看作是提取的局部特征,最后降维后的全局特征即是关键局部特征的集合。注意机制的目的是从局部特征集合中提取关键部分,也就是 PCA 中的局部特征。不同的是注意力机制使用每个局部特征对应的加权得分来计算最终的全局特征。PCA 利用协方差矩阵来获得降维(或加权权重)的基向量,从而减少特征间的信息冗余和噪声。基于以上背景,该团队使用 PCA 来指导提出的注意力模型,并通过将 PCA 算法转换成损失设计实现。此外,由于深度网络中的不同层可以捕获不同尺度的特征图,算法使用这些特征图来构造空间金字塔,利用多尺度信息来计算每个局部通道特征更精确的注意力分数,这些权重得分用于在所有空间位置中对局部特征进行加权。

二、核心思想

本论文定义了一个新的交互感知时空金字塔注意力层,以此实现输入在深度卷积神经网络中各个层的不同尺度局部特征的交互感知和时空特征融合的功能。它的架构如上图所示,算法首先定义了一个下采样函数 R, 将不同层的特征图统一到一个尺度。接着对不同尺度的特征图的局部通道特征使用注意力机制进行关键特征提取,通过使用融合函数对不同尺度的特征进行融合,并计算每个局部特征的注意力得分,用于加权特征。

在 PCA 中使用协方差矩阵计算投影向量并依此进行降维,即提取关键的局部特征,本论文将其转化损失函数的设计加入到最终的模型中:

再对提出的空间金字塔注意力模型进行约束,使其不同尺度层的特征图尽量关注到不同的信息,加入分类损失得出最终的损失函数:

论文提出的模型参数与输入特征图的数目无关,因此,自然地将其拓展到视频级端到端训练的时空网络,最终的网络结构定义如下图:

三、效果

研发人员将提出的基于交互感知的时空金字塔注意力机制神经网络算法应用于美图公司的视频相关业务进行人物行为分类,效果表现优异。除此之外在公开数据集 UCF101、HMDB51 和无裁剪行为数据库 Charades 上进行了评测,也取得了领先效果,结果如下图所示:

此外,该论文对视频时空输入进行了评测,评测结果显示出该模型能够同时处理任意数量的视频帧输入,并取得较好的实验结果。

上图给出了该算法在进行行为分类时的可视化输出结果,可以看出该算法能够对视频中关键的行为进行精确定位。

四、展望

实际应用中,业务场景对算法的运行时间要求较严苛。本论文在公开数据集上的结果均通过截取视频中的多帧得到,时间复杂度较高,后续会以降低算法时间复杂度为目标对核心模块进行优化。值得注意的是,本论文提出的空间金字塔注意力模型不受其输入特征图数量的限制,因此它很容易扩展到一个可以兼容任意数量的输入帧的时空版本,在应用中可以在分类准确率几乎不受影响的前提下,通过减少截帧数提升处理速度。

2018-08-02 18:251754

评论 1 条评论

发布
暂无评论
发现更多内容

【教程】Ipa Guard为iOS应用提供免费加密混淆方案

雪奈椰子

TCP连接断开:为什么要挥手四次

华为云开发者联盟

开发 华为云 数据传输 华为云开发者联盟

软件测试/测试开发|Docker+Jmeter+InfluxDB+Grafana 搭建性能监控平台

霍格沃兹测试开发学社

软件测试/人工智能|教你轻松玩转Edge浏览器

霍格沃兹测试开发学社

人工智能 | LangChain 核心模块PromptsModelsParsers

测吧(北京)科技有限公司

测试

一文搞懂得物前端监控

得物技术

大前端

企业如何通过熔断降级增强服务稳定性和系统可用性?

袋鼠云数栈

熔断 API 降级 数据服务 熔断降级

文物数字化建模纹理贴图

3D建模设计

纹理贴图 模型渲染 材质纹理 材质编辑

从零创建带action的GPT(2/2)

Bob Lin

openai ChatGPT LLM GPT-4 #LangChain

软件测试/人工智能丨利用人工智能 ChatGPT 自动进行测试需求分析

测试人

人工智能 软件测试

Illustrator 2024 for mac(标准矢量插画设计软件) v28.1完整激活版

mac

苹果mac Windows软件 矢量图形编辑软件 Illustrator 2023 AI023

ChatGPT插件:沉浸式体验人工智能

测吧(北京)科技有限公司

测试

从零创建一个带action的GPT(1/2)

Bob Lin

AI ChatGPT LLM GPTs

小程序开发实战案例四 | 小程序标题栏如何设置

盐焗代码虾

支付宝 小程序开发 导航栏

最常用的4种光纤接口结构是什么样式呢?

小齐写代码

使用 Taro 开发鸿蒙原生应用 —— 当 Taro 遇到纯血鸿蒙 | 京东云技术团队

京东科技开发者

taro 前端 Web 鸿蒙Next

2023 年中国 IT 用户满意度调查结果公布,融云获评「中国数字化转型新锐企业」

融云 RongCloud

数字化转型 网络 IT 企业 政企

软件测试/人工智能丨如何利用 ChatGPT 编写测试方案

测试人

人工智能 软件测试

LED显示屏行业:消费驱动和零售渠道的新发展

Dylan

技术 LED显示屏 led显示屏厂家 消费

非专业的建模人员如何给模型设置材质纹理贴图?

3D建模设计

材质贴图 纹理贴图 模型渲染 材质编辑

详细了解云堡垒机的作用,提高企业数据信息安全

行云管家

云计算 云服务 数据安全 企业上云 云堡垒机

人工智能 | 聊聊AutoGPT那些事儿

测吧(北京)科技有限公司

测试

【论文解读】System 2 Attention提高大语言模型客观性和事实性

合合技术团队

人工智能 自然语言处理 大模型 语言模型

如何零成本的提高3D模型的加载速度

3D建模设计

纹理贴图 模型渲染 材质纹理 材质编辑

JavaScipt验证URL新方法(2023 年版)

凌览

JavaScript node.js 前端

定档12月28日,WAVE SUMMIT+深度学习开发者大会2023狂欢来袭!

飞桨PaddlePaddle

人工智能 深度学习 开发者 WAVE SUMMIT

2023年中国IT用户满意度征集结果公布

Geek_2d6073

软件测试/人工智能|人工智能与自动化测试结合实战-探索人工智能在测试领域中的应用

霍格沃兹测试开发学社

技术分享 | ChatGPT API 调用总超时?破题思路在这

LigaAI

Python 后端 openai chatgpt api chatpt

ECCV2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术_语言 & 开发_美图云视觉技术部门_InfoQ精选文章