QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-03 19:003478

评论

发布
暂无评论
发现更多内容

[Pulsar] TopicPolicy的同步过程

Zike Yang

Apache Pulsar 12月日更

百度搜索中台海量数据管理的云原生和智能化实践

lecury

云原生 数据架构 架构演进 技术创新 百度搜索

科技助力新冠防疫——构建 COVID-19 知识图谱

亚马逊云科技 (Amazon Web Services)

Data

比较PostgreSQL与MySQL两大开源关系数据库管理系统

Ethereal

MySQL 数据库 postgresql

混沌工程之 ChaoBlade 的实现原理

zuozewei

混沌工程 ChaosBlade 12月日更

阿里云(腾讯云)服务器使用宝塔,搭建Python环境,运行 django 程序

梦想橡皮擦

12月日更

DDD领域驱动设计实战(一)-领域模型、子域、核心域、通用域和支撑域等基本概念

JavaEdge

12月日更

Flink 实践教程-进阶(3):窗口操作

腾讯云大数据

flink 流计算 Oceanus

netty系列之:一口多用,使用同一端口运行不同协议

程序那些事

Java Netty nio 程序那些事 12月日更

Dart 条件语句

坚果

flutter dart 28天写作 12月日更

感情是麻烦出来的(21/28)

赵新龙

28天写作

一年一度绩效考核

搬砖的周狮傅

绩效管理

【大咖直播】Elastic 企业搜索实战工作坊(第二期)

腾讯云大数据

Elastic Search

21《重学JAVA》-- 集合 (三)

杨鹏Geek

Java25周年 28天写作 12月日更

MySQL从入门到入魔(03)

海拥(haiyong.site)

MySQL 数据库 28天写作 12月日更

实用机器学习笔记二十一:集成学习之Bagging

打工人!

人工智能 机器学习 学习笔记 集成学习 12月日更

读《思辨与立场》-07-02指导原则

wood

28天写作 批判性思维 思辨与立场

Prometheus Exporter (三十三)BIND Exporter

耳东@Erdong

Prometheus 28天写作 bind exporter 12月日更

架构实战营-模块七作业

随风King

「架构实战营」

百度智能云以知识智能化驱动产业智能化升级

百度大脑

基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统

腾讯云大数据

流计算 Oceanus Elastic Search

为Amazon DMS数据库迁移任务建立自动化监控机制

亚马逊云科技 (Amazon Web Services)

Data

重磅消息 | Amazon MemoryDB for Redis闪亮登场!

亚马逊云科技 (Amazon Web Services)

Data

Flink 实践教程-进阶(4):TOP-N

腾讯云大数据

flink 流计算 Oceanus

为什么 SASE 很重要?

devpoint

SD-WAN sase 12月日更

身兼数职的Amazon DocumentDB,还有什么不为人知的功能?

亚马逊云科技 (Amazon Web Services)

Data

关于Amazon Redshift性能调优的十大Tips

亚马逊云科技 (Amazon Web Services)

Data

【CSS 学习总结】第一篇 - HTML 的语义化

Brave

CSS 12月日更

如何在Linux系统中安装Docker?

Ethereal

Docker

模块七作业:王者荣耀商城异地多活架构设计

dean

架构实战营

Vuepress 2.X + Element-Plus 的基本使用

AR7

typescript Vue3 vuepress Element Plus Vuepress2.X

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章