写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-03 19:003327

评论

发布
暂无评论
发现更多内容

一文彻底读懂webpack常用配置

Geek_02d948

webpack

图像算法助力提效转转商品审核

转转技术团队

图像处理

如何实现多个Git仓库同步

Appleex

git

挑战 30 天学完 Python:Day6 数据类型 - 元组tuple

MegaQi

Python 挑战30天学完Python 10月月更

上海推动普惠金融顾问制度落地,金融服务云平台或成为普惠金融的服务中枢

易观分析

金融

如何通过cmd怎么打开计算机管理

Appleex

windows cmd

面试突击91:MD5 加密安全吗?

王磊

你的公司需要数据中台吗?

久歌

架构

Zebec 以 Layer2 的形式推出 Zebec Chain,流支付新时达来临了

西柚子

Java 下数据业务逻辑开发技术 JOOQ 和 SPL

步尔斯特

Go基础数据类型使用实战:int float bool

王中阳Go

Go golang 学习方法 golang 面试 10月月更

Vue组件入门(八)v-model + 自定义参数

Augus

Vue 3 10月月更

java部分基础总结

Studying_swz

java 编程 10月月更

【Java深入学习】线程状态

Geek_65222d

10月月更

webpack高级配置

Geek_02d948

webpack

从AI作画到AI做视频,这一跳改变了什么?

脑极体

2022-10-18:以下go语言代码输出什么?A:panic;B:编译错误;C:moonfdd1。 package main import ( “fmt“ “net/url“ ) // 其中

福大大架构师每日一题

golang 福大大 选择题

深聊Nodejs模块化

coder2028

node.js

JDBC学习

Studying_swz

后端 10月月更

nodejs实现jwt

coder2028

node.js

ZooKeeper数据模型

穿过生命散发芬芳

zookeeper 10月月更

数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展

雨果

数据中台

Spring Boot「08」设置和使用 Property

Samson

Java spring 学习笔记 spring-boot 10月月更

Go slice切片详解和实战:make append copy

王中阳Go

Go golang 学习方法 #go 10月月更

JavaWeb(一)

Studying_swz

后端 10月月更

All Eyes on Docs! 练就火眼金睛,就来StarRocks 极客营

StarRocks

数据库

日志管理与分析系统的基本功能

阿泽🧸

日志管理 10月月更

数据中台前世今生(三):互联网下半场+数字化转型=数据中台

雨果

数据中台

Webpack构建速度优化

Geek_02d948

webpack

你用Go写过中间件吗?带你用Go实现【操作日志中间件】

王中阳Go

golang 高效工作 学习方法 #go 10月月更

翟佳:StreamNative 组织构建之路丨声网开发者创业讲堂 • 第 5 期

声网

技术管理 人工智能’

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章