AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021-11-27 16:013000

评论

发布
暂无评论
发现更多内容

百度搜索结果波动的极致治理

百度Geek说

第三期安全AI挑战者计划-文本分类对抗攻击 第三名“我永远喜欢星野源”技术总结

阿里云天池

云灾备:云时代的数据安全

天翼云开发者社区

云计算 网络安全

Go 必知必会:掌握Go语言的流程控制,构建逻辑与决策的基石

王中阳Go

流程控制 流程控制语句 GO语言编程

使用豆包MarsCode 实现高可用扫描工具

Trae

人工智能 程序员 AI 开发 智能化

博睿数据受邀亮相NebulaGraph Meetup北京站

博睿数据

获取淘宝商品详情数据api接口GET请求访问权限的条件

代码忍者

API 接口 pinduoduo API

浅析数字孪生与数字卫星发展史

DevOps和数字孪生

卫星

助力降本增效,ByteHouse打造新一代云原生数据仓库

字节跳动数据平台

数据仓库 云原生 OLAP 降本增效

华为智慧屏 V5 Max 110发布!Audio & HDR Vivid畅享菁彩视听盛宴

最新动态

精通Java并发锁机制:24种锁技巧+业务锁匹配方案(第二部分)

肖哥弹架构

Java 高并发

探索MySQL中VARCHAR(255)的演变及其对数据库设计的影响

Steven

mac苹果电脑虚拟机推荐:VMware Fusion Pro for Mac 下载

你的猪会飞吗

VMware Fusion Pro VMware Fusion Pro 13 mac VMware Fusion Pro 12

MLPerf 放榜,中国 AI 存储公司焱融科技斩获多项世界第一

焱融科技

AI 高性能存储 MLPerf

人工智能 | 手工测试用例转Web自动化测试生成

测试人

软件测试 软件测试面试

【行业知识】跨境电商怎么定义?需要用堡垒机吗?

行云管家

等保 堡垒机 跨境电商

合同管理中的常见陷阱,你是否也中招了?

天津汇柏科技有限公司

低代码 合同管理 AI 人工智能

网络编程入门如此简单(四):一文搞懂localhost和127.0.0.1

JackJiang

即时通讯;IM;网络编程

体育场馆LED显示屏的分类及应用

Dylan

科技 LED LED display LED显示屏 体育

观测云产品更新 | 场景、基础设施、用户访问、管理等

观测云

数据分析 基础设施

《春江花月夜》Vivid菁彩视听版,开启一场美学视听盛宴!

最新动态

【程序大侠传】应用内存缓步攀升,告警如影随形

Disaster

如何基于云产品搭建一个高可用性的网站

天翼云开发者社区

云计算

一次基于AST的大规模代码迁移实践

vivo互联网技术

代码迁移 postcss 抽象语法树AST gogocode

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章