本文最初发表于venturebeat，由InfoQ中文站翻译并分享

麻省理工学院研究人员得出结论，众所周知的 ImageNet数据集存在“系统注释问题”，当用作基准数据集时，与实际情况或直接观测结果并不一致。

“我们的分析明确指出，嘈杂的数据收集管道是如何导致结果基准与其作为代理的实际任务之间的系统性不一致的 ” ，麻省理工学院的研究人员在一篇题为《从 ImageNet 到图像分类：基准测试的情景化进展》的论文中写道，“我们相信，开发能够更好地捕捉实际情况，同时又保持可扩展性的注释管道，是未来研究的重要途径。”

当斯坦福大学视觉实验室（Stanford University Vision Lab）在 2009 年的计算机视觉与模式识别大会CVPR上介绍 ImageNet时，它比许多以前存在的图像数据集要大得多。ImageNet 的数据集包含数百万张照片，这些照片是在两年多的时间里收集的。ImageNet 将 WordNet 层次结构用于数据标签，并被广泛用作物体识别模型的基准。直到 2017 年，ImageNet 的年度竞赛还在推进计算机视觉领域发挥着作用。

但是，在仔细研究 ImageNet 的“基准任务不一致”之后，麻省理工学院的研究小组发现，大约 20% 的 ImageNet 照片包含了多个物体。他们对多个物体识别模型的分析表明，在一张照片中有多个物体会导致整体正确率下降 10%。作者声称，这些问题的核心是用于创建像 ImageNet 这样的大规模图像数据集的数据收集管道。

“总的来说，这个[注释]管道表明，单个 ImageNet 标签并不总是足以捕获 ImageNet 图像内容。然而，当我们训练和评估的时候，我们将这些标签视为基本事实。”报告合著者、麻省理工学院博士生 Shibani Santurkar 在国际机器学习大会ICML 上介绍了这项研究结果。“因此，这可能会导致 ImageNet 基准测试与现实世界的物体识别任务之间出现不一致的现象，无论是在我们鼓励模型所做的特性方面，还是在我们如何评估它们的性能方面，都是如此。”

据研究人员的说法，大规模图像数据集的理想方法是收集世界上单个物体的图像，并由专家按照确切的类别对它们进行标注，但这并不便宜，而且也不容易进行扩展。相反，ImageNet 从搜索引擎和像 Flickr 这样的网站上收集图片。然后，通过 Amazon Mechanical Turk 这样的群众外包平台对从互联网搜索引擎收集来的图片进行分类标注。研究人员指出，给 ImageNet 照片标注的 Amazon Mechanical Turk 被要求专注于一个物体，而忽略了其他物体或遮挡物。研究人员称，其他大规模图像数据集也遵循类似的（而且可能还存在问题）管道。

为了评估 ImageNet，研究人员创建了一个管道，要求人类注释员从多个标签中选择一个与照片最相关的。然后，最常被选中标签被用来训练模型，以确定研究人员所说的“绝对基础事实”。

“我们利用的关键思想是利用模型预测实际增强 ImageNet 标签。具体来说，我们采用了多种模型，并将它们的前五个预测汇总起来，得到一组候选标签。” Santurkar 说。“然后，我们实际上通过使用人类注释员来确定这些标签的有效性，但我们不是询问他们单个标签是否有效，而是对多个标签单独重复这个过程。这使得我们能够确定与单个图像可能相关的标签集。”

但研究小组警告说，他们的方法并不完全符合基本事实，因为他们也使用了非专家数据标签。他们的结论是，对于不是专家的人类注释员来说，在某些情况下很难准确地对图像进行标注。例如，除非你是犬类专家，否则从 24 种梗类犬选择一种标签可能是很困难的。

该研究小组的论文在 5 月下旬首次发表后，于日前被 ICML 接受发表。这篇论文在会议上发表之前，麻省理工学院决定从互联网上删除 8000 万张小图数据集，并要求拥有该数据集副本的研究人员予以删除。这些措施是在研究人员提请注意数据集中的冒犯性标签，如 N 开头的词，以及针对女性的性别歧视属于和其他贬损性标签后采取的。研究人员对 2006 年发布的 8000 万张小图数据集进行了审核，结论是这些标签是 WordNet 层次结构的结果。

ImageNet 也使用 WordNet 层级结构，在 ACM FaccT 会议上发表的一篇论文中，ImageNet 的创建者表示，他们计划删除数据集 Person 子树中几乎所有的约 2800 个类别。他们还列举了该数据的其他问题，比如缺乏图像多样性。

作者介绍：

Khari John，非裔美国人，住在旧金山东湾。是 VentureBeat 人工智能专栏作家。

原文链接：

https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

创作场景

MIT 研究人员发现 ImageNet 数据集存在系统级缺陷