速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

屠榜各大 CV 任务,微软开源的 Swin Transformer 有多强?

  • 2021-04-15
  • 本文字数:2515 字

    阅读完需:约 8 分钟

屠榜各大CV任务,微软开源的Swin Transformer有多强?

近日,微软 Swin Transformer 代码正式开源,短短两天就在 GitHub 上获得了 1.9k 的 Star,相关话题在知乎上同样引起了广泛的讨论和关注。

微软 Swin Transformer 正式开源


Swin Transformer 可以理解为一个通用的视觉骨干网络,Swin Transformer 设计出了一种分层表示形式,首先由小的 PATCHES 开始,而后逐渐将相邻的各 Patches 融合至一个更深的 Transformer 层当中。通过这种分层结构,Swin Transformer 模型能够使用 FPN 及 UNET 等高密度预测器实现技术升级,通过限制非重叠窗口中的部分计算量降低计算强度。各窗口中的 PATCHES 数量是固定的,因此随着图像尺寸的增加,复杂性也将不断增长。相比于 ViT,Swin Transfomer 计算复杂度大幅度降低,随着输入图像大小线性计算复杂度。


Swin Transformer 的核心设计是将 Self-Attention 层划分为 SHIFT,SHIFTED Window 接入上一层窗口,二者之间保持连接,由此显著增强建模能力。这种策略还有助于有效降低延迟:所有 Query Patches 窗口共享同一 KEY 集,由此节约硬件内存;以往的 Transformer 方法由于使用不同的 Query 像素,因此在实际硬件中往往具有较高延迟;论文实验证明,SHIFTED Window 方法带来的延迟较传统滑动方法更低,且二者的建模能力基本相同。


基于此,Swin Transformer 在各类回归任务、图像分类、目标检测、语义分割等方面具有极强性能,其性能优于 VIT/DEIT 与 RESNE (X) T。



GitHub 地址:https://github.com/microsoft/Swin-Transformer


原作者团队曹越在知乎上的回答:https://www.zhihu.com/question/437495132/answer/1800881612


论文地址:https://arxiv.org/pdf/2103.14030.pdf


实现方法


Swin Transformer 的架构如下图所示。首先,它与 VIT 一样将输入的图片划分为多个 Patches,作者使用 4 x 4 的 patch 大小;之后是嵌入层,最后则是作者设计的 Swin Transformer BLOCK。



Swin Transformer Block:此模块是 Transformer 中使用 Shifted Window 的多 ATTENTION 模块,具有一致性;Swin Transformer 模块中包含一个 MSA(多头 Attention)模块 SHIFTED WINDOW,之后是 2 层 MLP,接着将 Layernorm 层添加至各 MSA 模块与各 MLP 层内,而后是剩余连接。


基于 Self-Attension 的 SHIFTED Window



标准 Transformer 使用全局 self-attention 以创建各令牌之间的关系,但这会令图像大小增加 2 倍、导致复杂性随之提升,因此不适用于处理高强度任务。为了提升建模效率,作者提出由“部分窗口计算 Self-Attention”,即假设各个窗口均包含 MXM Patches、全局 MSA 模块与基于窗口的 MSA 模块,并在 HXW Patches 的图像之上进行复杂度计算:



(1)的复杂度为 PATCH 数量 HW 的次生增长;(2)则为线性增长,其中 m 为固定值,但全局 self-attention 为大 HW,因此基于窗口的 Self-Attention 计算量不会很高。


将 SHIFTED Window 拆分为连续块


基于 Windows 的 Self-Attention 虽然拥有线性增长的复杂度,但其缺少在各窗口之间的连接,因此限制了模型的建模能力。


为了在容器上引入连接以实现模型维护,作者提出了 SHIFTED Window 分割的概念。第一个模块使用中性窗口分割,并根据窗口大小的 M=4 放大得出一个 8 x 8 的特征图。我们将此窗口划分为 2 x 2 的形式,而后通过 Shifted Window 设置下一模块,将其移动 M/2 个像素。


使用 SHIFTED 结构,Swin Transformer Blocks 的计算如下所示:



W-MSA 与 SW-MSA 分别表示使用整齐分割与 SHIFTED SELF-ATTENTION。


Shifted Window 可以跨越多个窗口向模型添加连接,并保持模型的良好运行效率。


SHIFTED WINDOW 高效批量计算



SHIFTED WINDOW 也有自己的问题,即导致窗口数量增加——由原本的 (h / m xw / m) 个增加到 ((h / m + 1) x (W / m + 1)) 个,而且其中某些窗口要小于 MXM。这种方法会将较小的窗口填充为 MXM,并计算 attention 值以掩蔽填充操作;当窗口数量较少、但大于 2 x 2 时,由此带来的额外计算量将相当可观(由 2 x 2 到 3 x 3,计算量增加达 2.25 倍)。


因此,作者提出了一种更为高效的 BATCH 计算方法,即沿左上角执行 Cyclic Shift。在完成这项位移之后,Batch WINDOW 将拥有一张由非相邻子窗口组成的特征图,这相当于是使用 Cyclic-Shift、Batch-Windows 与整齐窗口分割限制子窗口内的 Self-Attention 数量,从而极大提高了计算效率。


相对位置偏移:


作者介绍了 Self-Attention 中各头的相对位置。偏移 B:



其中:




这将显著提高性能表现。


作者根据大小与计算复杂度建立起一套基本模型,名为 SWIN-B;同时引入了 SWIN-T、SWIN-S 与 SWIN-L,其模型大小与复杂度分别为 0.25 倍、0.5 倍与 2 倍。


当我们将窗口大小 M 设定为 7 时,各头部查询 D 为 32,各扩展层的 mlp α为 4。



其中 C 为初始阶段隐藏层的通道数量。

具体表现


图像分类


表 1A,从零开始在 ImgeNet-1K 上进行训练:



表 1B,在 ImageNet-22k 上进行首轮训练,之后迁移至 ImageNet-1K:



目标检测


表 2A,在不同模型帧上使用 Swin Transformer 替代 BackBone:



表 2C,与 SOTA 的比较结果:



语义分割


表 3,对于较小模型,可提供比先前 SOTA SETR 更高的 MIOU:



消融实验


表 4,Shifted Window 在相对位置偏移中的性能改进:



表 5,SHIFTED WINDOW 与 CYCLIC 高效执行:



表 6,不同 Self-Attentions 的比较:


Transformer 在 CV 上的应用前景有可能替代 CNN 吗?


ViT 的出现扩大了 Transformer 的使用范围,这也让 AI 领域的从业者开始关注 Transformer 与 CNN 的关系。在知乎上,一位用户提问称:


目前已经有基于 Transformer 在三大图像问题上的应用:分类(ViT),检测(DETR)和分割(SETR),并且都取得了不错的效果。那么未来,Transformer 有可能替换 CNN 吗,Transformer 会不会如同在 NLP 领域的应用一样革新 CV 领域?后面的研究思路可能会有哪些呢?


关于这个问题,很多知乎答主已经给出了自己的答案,包括浙江大学控制科学与工程博士、复旦大学微电子学院硕士、阿里巴巴高级算法专家等,大体总结为未来是否会形成完全替代尚不好预测, 但对 CNN 的降维打击已经形成。


感兴趣的用户可以到知乎阅读各位答友的完整回答:https://www.zhihu.com/question/437495132/answer/1800881612


参考链接:https://www.programmersought.com/article/61847904617/

2021-04-15 13:447557

评论 1 条评论

发布
用户头像
普通程序员看不懂系列
2021-04-16 09:58
回复
没有更多了
发现更多内容

操作系统--虚拟存储器概述

学Java的猪猪侠

基于docker部署jenkins(一)

李日盛

docker jenkins

Vue中如何在线预览pdf文件

y

Android 系统开发做什么?

吴小龙同学

产品经理训练营 Week11 作业

Mai

第八章作业-用户路劲图

z

云原生AI成过去式,AI原生的云才是通向未来的“藏宝图”

脑极体

浅论指针(二)

Integer

c 指针

结合 Flink 学习装饰者模式

shengjk1

flink源码 flink源码分析

数据分析

王一凡

设计模式--享元模式

学Java的猪猪侠

API 工具链研发的理论基础 - 导读

李宇飞

工具链 API sdk

继承

y

继承

产品经理第 0 期训练营第九周作业提交

Krystal

用户路径地图

王一凡

行业首创,百度自主研发下一代区块链操作系统

CECBC

原子操作

「产品经理训练营」第八章作业

Sòrγy_じò ぴé

一文搞懂 Flink 处理水印全过程

shengjk1

Flink SQL 自定义 Source format

shengjk1

flink sql

阿里混沌工程平台实践

心远

阿里巴巴 混沌工程

作业 - 第八章 数据分析

hao hao

2021金三银四总结面试必备清单:字节/蚂蚁金服/腾讯/百度

比伯

Java 程序员 架构 互联网 技术宅

户口?大厂?高薪?生活?聊聊应届程序员的职业选择

流沙

职业发展

你有没有领导力?

石云升

领导力 28天写作 职场经验 管理经验 3月日更

产品 0 期 - 第八周作业

曾烧麦

产品训练营

systemedctl使用指南

happlyfox

3月日更

maven项目下的重复依赖校验

程序员架构进阶

maven 持续集成 28天写作 3月日更 Jar包扫描

携手百度智能云推动实现工业AR空间智能化

百度大脑

AR 百度智能云

关于全球央行数字货币实验的若干认识与思考

CECBC

银行

一文搞懂 Flink Stream Join原理

shengjk1

flink源码 flink join

this指向

y

this指针

屠榜各大CV任务,微软开源的Swin Transformer有多强?_AI&大模型_赵钰莹_InfoQ精选文章