导读：获取高置信标注的大规模数据集是有监督学习算法的一个难点问题，训练集中的噪声标签会严重降低模型的精度。通过所提出的噪声标签自动识别算法，无需人工干涉就可获取高质量的干净数据集，可以充分发挥海量弱标签数据的潜力，并提升模型的精度。

本文相关工作收录于 ICCV2019（IEEE International Conference on Computer Vision，CV 领域三大顶会之首），详细介绍了淘系技术部算法团队提出的一种简单、高效的噪声标签识别算法，只需调节训练时的学习率，就可以让 90% 的噪声标签原形毕露。

背景

训练数据的规模及其标注质量对有监督学习算法的性能影响重大。互联网上虽然有海量的可爬取的数据，但这些按照标签语义收集来的数据往往带有大量噪声。因此，要在这些弱标签数据上训练出高性能的深度神经网络模型，研究人员往往面临着从噪声中提取足够多有用信息的挑战。本文将介绍一种简单高效的噪声标签自动识别算法，只需设置学习率的变更策略就能识别出 90% 的噪声样本，进一步提高训练模型的精度和收敛速度。

通常基于 human-supervision 的标签净化方法中，为保障训练数据的质量往往需要投入高昂的成本。著名的图像数据集 ImageNet 有 120 万带标数据，标注过程中李飞飞实施多轮多人带验证题的复杂标注策略，才确保了数据集的质量。

但在实际业务中我们不可能投入如此巨大的成本，外包标注的数据往往是单次打标，许多因素会导致我们拿到的训练集存在不同程度的噪声，例如下图是外包对性感图任务打标结果的截图，对类似的图片标注结果完全相反，用这批带噪数据进行训练得到的模型精度无法达到上线要求。因此，对高质量数据的需求与低效率的人工标注，构成了广大算法攻城狮们在模型开发的初级阶段所要解决的主要矛盾。

外包标注结果中仍有噪声

针对噪声问题，一味地调整模型和算法治标不治本。我们在淘宝内容库类目分类识别的业务问题中发现，如果训练数据的精度不到 80% ，那么训练出来的模型精度是 72% 左右，无论模型怎么调整，精度只有 2%～3% 的提高，无法达到上线要求，因此还是需要从数据源头上解决问题。依赖 human supervision 的方式净化数据集需要耗费大量的时间，让多个外包统一打标的边界也需要付出很大的沟通成本。

为提高业务效率，我们沉淀出一套简单高效易移植的噪声样本识别算法，自动找出可能是噪声的样本，并通过剔除可疑噪声数据在干净训练集上训练以提高模型精度。在解决业务问题中，噪声样本识别算法给我们带来了以下两方面显著的好处：

1、提高标注效率。通过算法找出最可疑的样本，只需要对筛选出来的最可疑的样本进行二次审核，减少标注人员的工作量，也能大幅提高迭代速率。

2、提高模型精度。如果我们的噪声样本识别精度足够高，甚至识别精度达到95%以上，我们甚至不需要对可疑的噪声样本做人工复审，直接剔除掉训练模型以提高精度。

接下来，我们将详细介绍噪声样本标签识别算法，相关工作已被计算机视觉领域的顶会ICCV2019接收《O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks》。

本文转载自淘系技术公众号。

原文链接：https://mp.weixin.qq.com/s/JnLo8C8cIGW1Fbyf3af5bg

创作场景

每天审核淘宝性感图的工程师，竟然还做了这个