50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

谷歌研究团队找到提高自我监督学习鲁棒性的方法

  • 2020-03-08
  • 本文字数:1989 字

    阅读完需:约 7 分钟

谷歌研究团队找到提高自我监督学习鲁棒性的方法

如何进一步提高自我监督学习的鲁棒性是计算机视觉领域的一大难题,Google Brain 的研究人员就此问题发表了一篇论文,本文为 AI 前线第 105 篇论文导读,我们将对这篇论文的具体方法和效果进行解读。


近日,Google Brain 研究人员发表了一篇关于“如何提高自我监督学习的鲁棒性方法”的新研究。研究中提出了一个自动删除快捷方式特征的通用框架,该框架能使自我监督的模型优于以传统方式训练的模型。

摘要

在自我监督的视觉表现学习中,特征提取器在一个“预置任务”(Pretext task 可以理解为是一种为达到特定训练任务而设计的间接任务或预置任务)上进行训练,因为可以快速生成标签。这种方法存在的一个主要问题是,特征提取器在快速学习过程中关注于低级视觉特征(low-level visual features),例如色差或水印,无法学习有用的语义表示。


为解决这一问题,研究人员提出了一个自动删除快捷特征的通用框架。我们的主要假设是,那些最初被用来解决预置任务的特征也是在经过对抗训练后最容易成为增加任务难度的特征。我们通过训练“镜头”网络进行微小的图像更改,从而最大程度降低预置任务的性能,证明了这种假设适用于常见的预置任务和数据集。在所有测试中,使用修改过的图像学习的表现都优于未使用修改过的图像学习的表现。此外,镜头所做的修改揭示了预置任务和数据集的选择如何影响自我监督学习的特征。

方法

我们建议使用一个轻量级的图像-图像转换网络(或称“镜头”)来处理图像,以提高自我监督的视觉表现,该网络通过对抗训练来弱化特征提取网络在预置任务上的性能。在本研究中,我们首先定义了“快捷”视觉特征的概念。


直观地说,根据预置任务和学习表现的下游应用,快捷特征可以定义为(i)能够通过关注低级视觉特征快速、准确解决预置任务的特征;(ii)对下游应用程序是无用的,且能阻止学习有用的语义表示。



图注:旋转预测预置任务的自动快捷删除示例。镜头学会了删除预置任务更容易解决的特征(具体来说,它在这个例子中隐藏了水印)。快捷删除迫使网络学习更高级的特性来解决预置任务,提高了语义表示质量。


我们首先规范化基于预置任务的 SSL 的一般设置,然后描述如何修改这个设置来防止快捷特征。



对于分类预置任务,我们可以训练镜头,使预测的类概率偏向于可能性最小的类。因此损失函数变成:



具体方法可以归结为:


  • 提出一个简单而通用的自动删除快捷方式的方法,几乎可以适用于任何预置任务。

  • 我们在大量的预置任务和两个不同的训练数据集(ImageNet 和 YouTube-8M frames)上验证了所提出的方法,在所有方法、上游训练数据集和两个下游/评估数据集(ImageNet 和 Places205)上显示出均有改善。特别需要注意的是,我们的方法可以替代那些人工手动删除快捷特征的预处理过程。

  • 我们使用镜头来比较不同预置任务和数据集之间的快捷特征。

实验

在实验中,研究人员在开源数据集 CIFAR-10 上训练了一种自我监督模型,并对其进行预测,以预测稍微旋转的图像的正确方向。为了测试镜头,他们在输入图像上添加了带有方向信息的快捷特征,这些快捷特征使模型无需学习目标级特征即可解决旋转任务。研究人员在报告中称,从合成的快捷特征中学习的模型(没有镜头)的语义表示表现不佳,而戏剧性的是,从镜头中学习的特征提取器总体上表现更好。



图注:模型示意图。在本文的实验中,我们对镜头 L 使用 U-Net 框架,对特征提取器 F 使用 ResNet50 v2 框架。



图注:使用不同的自我监督预置任务对 ImageNet 上训练的模型的表示进行评估。这些分数在逻辑回归模型中是准确的(以 %为单位)。以粗体表示的值在 0.05 的显著性水平上优于次佳的方法。训练图像按照各自的原始文件进行预处理。



图注:顶部:三张来自 ImageNet 的示例图像,由经过不同预置任务训练的镜头处理。输入图像上的虚线方块显示了用于基于补丁的任务的区域;底部:从测试集中随机选择的 1280 张图像的平均重建损失函数值。为了显示方便,截取了第 95 个百分位数。


在第二项测试中,该团队在开源语料库 ImageNet 中的一百万幅图像上训练了一个模型,并让其预测了图像中包含的一个或多个补丁的相对位置。研究人员称,对于所有已测试的任务,增加镜头可以使 baseline 得到改善。

结论

研究人员总结称:“结果表明,使用经过对抗训练的镜头自动删除快捷方式的好处可广泛应用于所有预置任务和数据集。此外,我们发现,各种类型的特征提取器都具备这种能力。除了提高表示方法外,我们的方法使我们能更直观地看到通过自我监督学习的特征,并能对这些特征进行量化和比较。我们确认,这种方法可以检测并弱化先前工作中出现的快捷特征。”


在未来的研究中,Google Brain 研究团队计划探索新的镜头架构,并探究该技术是否可以应用于进一步改进监督学习算法的问题上。


论文地址:


https://arxiv.org/pdf/2002.08822.pdf


参考链接:


https://venturebeat.com/2020/02/26/researchers-method-improving-self-supervised-ai-model-robustness/


2020-03-08 13:404047

评论 1 条评论

发布
用户头像
类似于gan
2020-03-12 18:13
回复
没有更多了
发现更多内容

《算法导论(第4版)》阅读笔记:p1-p1

codists

算法

【华为云MySQL技术专栏】Binlog压缩:节省存储,优化网络,提升性能

华为云开发者联盟

华为云 #Mysql

AI 工具选型误区:为什么 “功能多” 不等于 “适合你”?

飞算JavaAI开发助手

如何高效使用氛围编程:一种与 AI 协作的新编程范式

baiyutang

编程 AI 开发 AIGC LLM

大数据平台与数据仓库的核心差异是什么?

镜舟科技

数据仓库 数据湖 大数据平台 StarRocks 湖仓一体

蚂蚁数科推出新区块链平台 驱动万亿级新能源资产RWA交易新生态

Lily

AI 时代程序员生存指南:掌握工具者掌控职场主动权

飞算JavaAI开发助手

《高效能人士的七个习惯》中英双语配图

柯杰

高效能人士的七个习惯

微众银行:大规模 TiDB 运维体系建设 & 金融级稳定性保障漫谈

TiDB 社区干货传送门

实践案例

如何写出一份优秀的简历?

Y11

面试 找工作 招聘 找实习

iVX:全场景数字化转型的技术重构

代码制造者

工业互联网 智慧城市 元宇宙

HarmonyOS 如何获取设备信息(系统、版本、网络连接状态)

网罗开发

HarmonyOS HarmonyOS NEXT

2025年4月文章一览

codists

编程人

端到端观测分析:从前端负载均衡到后端服务

观测云

可观测性

蚂蚁百宝箱 3 分钟上手 MCP:6 步轻松构建 Qwen3 智能体应用并发布小程序

猫头虎

智能体 MCP

微信读书阅读数据的AI赋能:MCP服务器实现知识管理新范式

穿过生命散发芬芳

cursor MCP

轻松上手:使用 Docker Compose 部署 TiDB 的简易指南

TiDB 社区干货传送门

安装 & 部署 7.x 实践 TiDB第四届征文-运维开发之旅

Go语言入门:(一)环境安装

北桥苏

GO语言编程

泛微亮相鸿蒙生态峰会:共建协同管理基石,助推数智办公“新样板”涌现

最新动态

镜舟科技出席工业软件创新暨开源峰会,分享开源创新与生态协同实践

镜舟科技

AI 开源生态 工业软件 镜舟科技 生态协同

如何构建安全可靠的 HarmonyOS 应用

网罗开发

鸿蒙 HarmonyOS HarmonyOS NEXT 实践分享

谷歌报告:76% 的开发者依赖 AI 工具完成编写、解释代码等任务

飞算JavaAI开发助手

掌握设计模式--策略模式

不在线第一只蜗牛

设计模式

Easysearch 索引生命周期管理实战

极限实验室

easysearch

VMware ESXi 8.0U3e macOS Unlocker & OEM BIOS Inspur (浪潮) 定制版

sysin

esxi

Discourse 同时上传文件限制

HoneyMoose

电信SD-WAN上网专线:企业网络升级的不二选择

宽炜网络

SD-WAN

为什么 Go 开发者开始用 AI 写 Java?跨语言代码生成的隐藏技能与行业变革

飞算JavaAI开发助手

虚拟云环境中的高性能块设备:并行文件系统比较

Sergey Platonov

storage 高性能计算,

StarRocks Lakehouse 如何重构大数据架构?

镜舟科技

大数据 存算分离架构 LakeHouse StarRocks 物化视图

华为钱包,何以“碰”出未来?

脑极体

AI

谷歌研究团队找到提高自我监督学习鲁棒性的方法_AI&大模型_Google_InfoQ精选文章