QCon北京|3天沉浸式学习,跳出信息茧房。 了解详情
写点什么

Google 使用 3 亿张图片大幅度改进图像识别算法

  • 2017-08-03
  • 本文字数:671 字

    阅读完需:约 2 分钟

Google 和 CMU 的研究员使用 3 亿张图片,在图像识别算法的几个指标上取得了长足改进,而往常的训练一般只使用一百万张图片。

很多开发者在训练物体检测算法时会使用包含一百万张图片的 ImageNet 数据集。这个数据集从 2011 年起就没有新图片加入了。然而,在该数据集上训练的神经网络中的参数数量与日俱增,训练模型的 GPU 算力也在增加。卡内基梅隆大学(CMU)中 Google 的研究人员和科学家提出:如果增加训练数据量会如何?

于是,Google 建立了一个内部数据集,含有3 亿张图片,标记为18291 个类别。图片标注的来源包括原始网络信号,网页之间的联系,以及用户的反馈。因为不是由人标注的,所以含有20% 的噪音。

结论是:增大数据量果然有益。虽然图片标记含有噪音,算法的准确率还是提高了3 个百分点。很明显,数据量的增加克服了标记的噪音。研究人员发现算法的表现和数据量呈对数关系上升,如图所示。论文作者认为,现有的模型是基于一百万张图片建立的:如果对模型进行调整,准确率还有上升空间。

研究人员在微软的 COCO 对象检测基准测试上进行了测试,结果喜人:平均正确率 (AP) 从 34.3 上升到 37.4。Google 和 CMU 在 ICCV 会议上发布了算法和评测,并发布了论文《重新审视深度学习时代数据的非理性效果》,可在arxiv 自由获取。

查看英文原文 Researchers Improve State of the Art in Image Recognition Using Data Set With 300 Million Images


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-03 19:003448

评论

发布
暂无评论
发现更多内容

点对点传输效率对比测试——镭速传输

镭速

智能感知编码优化与落地实践

Baidu AICLOUD

视频编解码

Go Mutex:保护并发访问共享资源的利器

陈明勇

Go golang mutex 互斥锁 三周年连更

华为弹性云服务器ECS,帮助企业节省成本上云成本

平平无奇爱好科技

云计算,

华为云CDN,助力企业数字化转型

YG科技

云计算

PerformingTestCOMPILER_KNOWS_STDLIB-Failed

linux大本营

cmake C++

linux如何计算一个shell程序运行的时间

linux大本营

Shell Linux系统

斩获四奖|海泰方圆荣登网信自主创新尖锋榜

电子信息发烧客

华为云弹性公网IP服务,实惠又便捷!

轶天下事

写一个epoll的服务端程序

linux大本营

事件驱动 epoll C++ I/O 多路复用

c语言如何用宏来实现字符串到函数的映射?

linux大本营

C语言 映射函数

【Python实战】Python采集电影评论

BROKEN

三周年连更

华为云CDN加速为中小企业数字化效力

YG科技

CouldNOTfindGMP(missing:GMP_LIBRARYGMP_INCLUDE_DIR)CallStack(mostrecentcallfirst)

linux大本营

Linux GNU cmake

对标阿里P8级Java面试题及答案整理(2023速成版,7天就能吃透)

收到请回复

华为云CDN:让网络延时,成为过去时!

YG科技

constchar*类型的实参与char*类型的形参不兼容

linux大本营

指针 const C++

ShareSDK QQ平台注册

MobTech袤博科技

汽车制造数字化转型如何做?有哪些可行性案例?

优秀

数字化转型 汽车制造

TypeScript 函数 详解

程序员海军

Vue3 Typescript 三周年连更

如何执行mysql文件

linux大本营

MySQL 数据库

华为云全球加速GA,让企业获得更优质的服务体验

平平无奇爱好科技

为什么企业们更偏好使用华为云CDN?

YG科技

Python中的哈希表

Echo_Wish

Python 数据结构 哈希表

2022-04-24:用go语言重写ffmpeg的muxing.c示例。

福大大架构师每日一题

Go 音视频 ffmpeg

【Python实战】Python采集最低战力信息

BROKEN

三周年连更

Last Week in Milvus

Zilliz

Milvus Zilliz 向量数据库

华为云WAF设置要塞,筑起企业网络安全万里长城

轶天下事

华为云D-Plan解决方案助力汽车零部件质检智能化

轶天下事

Google使用3亿张图片大幅度改进图像识别算法_Google_Roland Meertens_InfoQ精选文章