写点什么

谷歌研究团队找到提高自我监督学习鲁棒性的方法

  • 2020-03-08
  • 本文字数:1989 字

    阅读完需:约 7 分钟

谷歌研究团队找到提高自我监督学习鲁棒性的方法

如何进一步提高自我监督学习的鲁棒性是计算机视觉领域的一大难题,Google Brain 的研究人员就此问题发表了一篇论文,本文为 AI 前线第 105 篇论文导读,我们将对这篇论文的具体方法和效果进行解读。


近日,Google Brain 研究人员发表了一篇关于“如何提高自我监督学习的鲁棒性方法”的新研究。研究中提出了一个自动删除快捷方式特征的通用框架,该框架能使自我监督的模型优于以传统方式训练的模型。

摘要

在自我监督的视觉表现学习中,特征提取器在一个“预置任务”(Pretext task 可以理解为是一种为达到特定训练任务而设计的间接任务或预置任务)上进行训练,因为可以快速生成标签。这种方法存在的一个主要问题是,特征提取器在快速学习过程中关注于低级视觉特征(low-level visual features),例如色差或水印,无法学习有用的语义表示。


为解决这一问题,研究人员提出了一个自动删除快捷特征的通用框架。我们的主要假设是,那些最初被用来解决预置任务的特征也是在经过对抗训练后最容易成为增加任务难度的特征。我们通过训练“镜头”网络进行微小的图像更改,从而最大程度降低预置任务的性能,证明了这种假设适用于常见的预置任务和数据集。在所有测试中,使用修改过的图像学习的表现都优于未使用修改过的图像学习的表现。此外,镜头所做的修改揭示了预置任务和数据集的选择如何影响自我监督学习的特征。

方法

我们建议使用一个轻量级的图像-图像转换网络(或称“镜头”)来处理图像,以提高自我监督的视觉表现,该网络通过对抗训练来弱化特征提取网络在预置任务上的性能。在本研究中,我们首先定义了“快捷”视觉特征的概念。


直观地说,根据预置任务和学习表现的下游应用,快捷特征可以定义为(i)能够通过关注低级视觉特征快速、准确解决预置任务的特征;(ii)对下游应用程序是无用的,且能阻止学习有用的语义表示。



图注:旋转预测预置任务的自动快捷删除示例。镜头学会了删除预置任务更容易解决的特征(具体来说,它在这个例子中隐藏了水印)。快捷删除迫使网络学习更高级的特性来解决预置任务,提高了语义表示质量。


我们首先规范化基于预置任务的 SSL 的一般设置,然后描述如何修改这个设置来防止快捷特征。



对于分类预置任务,我们可以训练镜头,使预测的类概率偏向于可能性最小的类。因此损失函数变成:



具体方法可以归结为:


  • 提出一个简单而通用的自动删除快捷方式的方法,几乎可以适用于任何预置任务。

  • 我们在大量的预置任务和两个不同的训练数据集(ImageNet 和 YouTube-8M frames)上验证了所提出的方法,在所有方法、上游训练数据集和两个下游/评估数据集(ImageNet 和 Places205)上显示出均有改善。特别需要注意的是,我们的方法可以替代那些人工手动删除快捷特征的预处理过程。

  • 我们使用镜头来比较不同预置任务和数据集之间的快捷特征。

实验

在实验中,研究人员在开源数据集 CIFAR-10 上训练了一种自我监督模型,并对其进行预测,以预测稍微旋转的图像的正确方向。为了测试镜头,他们在输入图像上添加了带有方向信息的快捷特征,这些快捷特征使模型无需学习目标级特征即可解决旋转任务。研究人员在报告中称,从合成的快捷特征中学习的模型(没有镜头)的语义表示表现不佳,而戏剧性的是,从镜头中学习的特征提取器总体上表现更好。



图注:模型示意图。在本文的实验中,我们对镜头 L 使用 U-Net 框架,对特征提取器 F 使用 ResNet50 v2 框架。



图注:使用不同的自我监督预置任务对 ImageNet 上训练的模型的表示进行评估。这些分数在逻辑回归模型中是准确的(以 %为单位)。以粗体表示的值在 0.05 的显著性水平上优于次佳的方法。训练图像按照各自的原始文件进行预处理。



图注:顶部:三张来自 ImageNet 的示例图像,由经过不同预置任务训练的镜头处理。输入图像上的虚线方块显示了用于基于补丁的任务的区域;底部:从测试集中随机选择的 1280 张图像的平均重建损失函数值。为了显示方便,截取了第 95 个百分位数。


在第二项测试中,该团队在开源语料库 ImageNet 中的一百万幅图像上训练了一个模型,并让其预测了图像中包含的一个或多个补丁的相对位置。研究人员称,对于所有已测试的任务,增加镜头可以使 baseline 得到改善。

结论

研究人员总结称:“结果表明,使用经过对抗训练的镜头自动删除快捷方式的好处可广泛应用于所有预置任务和数据集。此外,我们发现,各种类型的特征提取器都具备这种能力。除了提高表示方法外,我们的方法使我们能更直观地看到通过自我监督学习的特征,并能对这些特征进行量化和比较。我们确认,这种方法可以检测并弱化先前工作中出现的快捷特征。”


在未来的研究中,Google Brain 研究团队计划探索新的镜头架构,并探究该技术是否可以应用于进一步改进监督学习算法的问题上。


论文地址:


https://arxiv.org/pdf/2002.08822.pdf


参考链接:


https://venturebeat.com/2020/02/26/researchers-method-improving-self-supervised-ai-model-robustness/


2020-03-08 13:403093

评论 1 条评论

发布
用户头像
类似于gan
2020-03-12 18:13
回复
没有更多了
发现更多内容

低代码平台“高”效率开发的5个能力

高端章鱼哥

软件开发 低代码 提高效率 JNPF

Observable设计模式简介

树上有只程序猿

Java java-API Observable

RR有幻读问题吗?MVCC能否解决幻读?

王磊

Java Java 面试题

全球优秀的架构师都在关注什么?

用友BIP

架构师 数智底座

AI技术赋能,引领行业变革 | 百度营销创新打造“信息流AI投放”

科技热闻

veridex执行错误分析与方案

XCG00

Android;

深化产教融合,华为与高校共建鸿蒙人才培养

Geek_2d6073

基于Pair-wise和CrossEncoder训练单塔模型

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

直播预告 | 博睿学院:浅析windows Hook原理和机制

博睿数据

可观测性 智能运维 博睿数据 直播预告 博睿学院

SOFABoot 4.0 正式发布,多项新特性等你来体验!

SOFAStack

springboot Java 分布式 jdk17 #开源

现代数据分析的革命,ABI报表工具引领企业进入数据驱动时代

流量猫猫头

数字时代的生产力工具:低代码开发平台

力软低代码开发平台

基于Java开发的企业级数字化采购系统(SRM)

金陵老街

srm 采购系统 招投标系统

面部表情识别技术的挑战与前景

来自四九城儿

何时使用MongoDB而不是MySql

越长大越悲伤

MySQL 数据库 mongodb

洛基:北欧怪奇之旅 Röki for Mac(冒险解谜游戏)

mac

mac游戏 苹果mac游戏 洛基北欧怪奇之旅 冒险解谜游戏 Röki

一键登录和短信验证登录,到底有什么区别?

MobTech袤博科技

前端 App 前端开发 APP开发

倒计时 1 天!1000+ 技术先锋,龙蜥社区受邀参加 OCP China Day 2023

OpenAnolis小助手

龙蜥活动 OCP China Day 2023

MRS大企业ERP流程实时数据湖加工最佳实践

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

基于 KubeSphere 快速部署 ByConity

朱亚光

云原生 数据舱

加速解锁科学智能前沿,昇思MindSpore铸就了一把“全能”钥匙

脑极体

AI

大咖云集︱2023第二届中国PMO&PM大会倒计时15天!

新消费日报

软件测试/测试开发丨Python 内置库 pythonlogging

测试人

Python 程序员 软件测试 自动化测试 测试开发

火爆全球的AI艺术二维码到底是怎么做的?

Ricky

二维码 个性化推荐 二维码生成

贡献超 10 万代码的新晋 committer,持续参与 Apache IoTDB 社区的“秘籍”是?

Apache IoTDB

“铁头乔”出品!CommunityOverCode Asia 专题介绍之物联网(IoT)/工业物联网(IIOT)

Apache IoTDB

万物皆可销售:数字世界中的商业文明之光

B Impact

HarmonyOS NEXT新能力,一站式高效开发HarmonyOS应用

Geek_2d6073

隆重介绍!为啥它让智能制造有了“芯”能力?

用友BIP

制造

IOS上架流程

HarmonyOS系统级推送服务,打造消息通知新体验

Geek_2d6073

谷歌研究团队找到提高自我监督学习鲁棒性的方法_AI&大模型_Google_InfoQ精选文章