HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021-11-27 16:012827

评论

发布
暂无评论
发现更多内容

治理效率提升77%!揭秘基于DataLeap实时健康分的最佳实践

字节跳动数据平台

数据库 数据治理 数据安全 数据研发 企业号11月PK榜

全网累计销量TOP 1的TCL超薄嵌入式冰箱,跟着选0出错!

科技热闻

机械加工行业云MES解决方案

万界星空科技

工业互联网 制造业 生产管理系统 mes 机械臂

万界星空科技MES与WMS如何集成的?

万界星空科技

数字化转型 工业互联网 wms mes 3D仓库

探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?

GPU算力

MegEngine 9-10 双月报:新版本发布,AI 生态升级,不容错过!

MegEngineBot

深度学习 开发者 开源社区 MegEngine

趋势:国产数据库发展的五个一体化

科技热闻

可跨平台数据库多连管理工具:Navicat Premium 16 中文版

繁星

数据库管理 Navicat Premium 16

组态软件特点及工控组态软件应用

2D3D前端可视化开发

物联网 组态软件 PLC 工业控制系统 web组态编辑器

龙芯浏览器是哪家公司开发的?支持信创吗?

行云管家

浏览器 信创 国产化 龙芯浏览器

安全审计 合约审计:代币开发公司的一个关键方面

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发

人民网《外企谈信心》| Denodo:加强数据管理技术合作 护航数字经济高质量发展

科技汇

日常数字生活中,手机里的隐私信息是如何被保护的?

最新动态

犀牛Rhino 8 for Mac(3D建模软件)

展初云

Mac 建模软件 Rhino 犀牛

After Effects 2024 for Mac(ae视频特效制作工具)

展初云

Mac软件 视频编辑 AE After Effects

一站式IT统一运维管理平台有哪些?大家都在用哪个?

行云管家

IT运维 运维管理 统一运维

观测云产品更新 | 单点登录新增 OIDC / Oauth2.0 协议、数据转发优化、场景优化等

观测云

可观测性 单点登录 #数据分析

数智化采购平台覆盖间接采购全流程,现金流优化的“小成大就”

用友BIP

数智采购

数智化营销——企业会员私域运营的成功路径

用友BIP

数智营销

深度开发者故事|API Explorer 助力教育行业 一站式搭建实验环境

华为云PaaS服务小智

云计算 软件开发 华为云

深入理解 Dubbo 协议的调试方法与实践

Apifox

Java 程序员 dubbo 后端 RPC

KubeEdge-Ianvs v0.2 发布:终身学习支持非结构化场景

华为云开发者联盟

云计算 云原生 后端 华为云 华为云开发者联盟

如何在嵌入式软件开发的过程中使用DevSecOps方法,提升开发效率与安全性

龙智—DevSecOps解决方案

DevOps DevSecOps

Nginx 知识点一网打尽:动静分离、压缩、缓存、跨域、高可用、性能优化

郑在暴富中

nginx 高可用 反向代理

jar包的精细化运营,Java模块化简介 | 京东云技术团队

京东科技开发者

Java Java9 模块化 jar包

Parallels Desktop 19 虚拟机 一键激活 无需关闭sip

繁星

pd虚拟机 Parallels Desktop 19 pd虚拟机 19

Kontakt Factory Library 2(Kontakt原厂音色库)

展初云

Mac软件 音色库 Kontakt

PCB设计安规丨电气间隙与爬电距离要点

华秋电子

vivo 网络端口安全建设技术实践

vivo互联网技术

网络端口风险治理 端口扫描 流量行为基线 端口管理规范 漏洞扫描平台

【实践篇】一次Paas化热部署实践分享 | 京东云技术团队

京东科技开发者

热部署 PaaS平台化能力 企业数字化 PaaS 平台 企业号11月PK榜 Paas化

您的代理记账企业的数字化保卫和合作伙伴-智慧云

知者如C

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章