AICon日程100%就绪,9折倒计时最后一周 了解详情
写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021-11-27 16:012840

评论

发布
暂无评论
发现更多内容

【并发编程系列1】Thread生命周期及interrupted()作用分析

爱好编程进阶

Java 面试 后端开发

MSE 微服务治理发布企业版,助力企业构建完整微服务治理体系

阿里巴巴云原生

免费下载|KubeMeet 城市站实录合辑,N 场容器开源分享打包看

阿里巴巴云原生

阿里云视频云人脸生成领域最新研究成果入选CVPR2022

阿里云视频云

计算机视觉 视频编码 CVPR 视频云

【源码分析设计模式 10】SpringMVC中的建造者模式

爱好编程进阶

Java 面试 后端开发

YonMaster开发者认证线上赋能培训班定档4月18日

YonBuilder低代码开发平台

计算机存储层次简析

懒时小窝

计算机基础

使用 Sanic 框架进行 Python Web 开发

宇宙之一粟

Python 4月月更 sanic

macOS系统病毒常见的两种传播途径

火绒安全

macos 终端安全 勒索病毒 蠕虫

来也科技收购Mindsay背后:新旧势力交锋智能自动化备受关注

王吉伟频道

RPA 收购 机器人流程自动化 来也科技 Mindsay

云图说丨叮咚,您有一份短信通关攻略待查收

华为云开发者联盟

短信 签名 消息 签名模板 MSGSMS

thinkphp5框架新建页面相关规范详解

CRMEB

WeTest平台产品&技术合作伙伴招募

WeTest

Tiger DAO VC:DAO组织风险投资时代来临

西柚子

java高级用法之:JNA中的Function

程序那些事

Java Netty 程序那些事 4月月更

2022年提高远程工作效率的三大实用技巧汇总

行云管家

远程办公 居家办公 办公软件

Redis是怎样通讯的?

ooooooh灰灰

redis 后端 协议 4月月更

【Zeekr_Tech】汽车软件RTOS-之AUTOSAR OS多核控制简介

Zeekr_Tech

Linux 软件架构

“东数西算”超级工程利好云计算,多云管理背后却暗藏汹涌!

行云管家

云计算 多云 东数西算 云管

好的测试数据管理,到底要怎么做?

禅道项目管理

测试 数据 数据管理

【并发编程系列10】阻塞队列之SynchronousQueue

爱好编程进阶

Java 面试 后端开发

RadonDB MySQL on K8s 2.1.4 发布!

RadonDB

MySQL 数据库 Kubernetes 高可用 RadonDB

“双碳”下的建筑业:未来10年必须重视这5大方向

WorkPlus

jackson学习之十(终篇):springboot整合(配置类)

程序员欣宸

Java web 4月月更

聚焦供应链布局,新能源汽车企业重塑产业核心竞争能力

数商云

数字化转型 供应链 新能源汽车

简单实用的redis分布式锁

Rubble

4月日更 4月月更

STM32+华为云IoTDA,带你设计一个属于自己的动态密码锁

华为云开发者联盟

stm32 iotda 华为云IoT 密码锁 Qt框架

科创人·富士康CDO史喆:To B产品切忌臃肿,数字化不分对错只求更好

科创人

教你用ab命令进行并发与压力测试

华为云开发者联盟

并发 压力测试 ab测试 ab命令 请求次数

Tiger DAO VC:将你的风险投资变成DAO组织协同

小哈区块

知识管理的目的及意义——提高社会资源的配置效率

小炮

知识管理

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章