种族偏差是生物特征识别中的一个重要问题，但在人脸识别领域还没有得到深入的研究。北京邮电大学邓伟洪教授团队的研究揭示了当前人脸识别算法中普遍存在跨国家/地区识别偏差问题，并构建了评价偏差程度的人脸数据集 RFW（Racial Faces in-the-Wild ）。

在 RFW 数据库的基础上，研究人员验证了微软、亚马逊、百度、旷视的商业 API 以及学术界最先进的4个算法，发现偏差确实存在。为了探究这种偏差是否是由训练数据的分布不平衡引起的，研究人员收集了一个涵盖全球各地区人类信息的训练数据库，最终发现偏差的发生受到数据和算法两方面影响。研究人员提出了减小识别偏差的信息最大化自适应神经网络IMAN，以改进对目标域的识别能力。在RFW数据库上进行的大量实验表明，IMAN学习的特征具有在不同种族和不同数据库之间的泛化能力。该研究结果已经发表在国际计算机视觉大会ICCV2019上，本文为AI前线第99篇论文导读，我们将对这项研究成果进行详细解读。

1 背景介绍

人脸识别中的种族偏见

深度卷积神经网络的出现极大地推动了人脸识别的发展。然而，以往的研究中一直忽略了种族偏差的问题，而它明显降低了现实人脸识别系统的性能。特别对于非白种人来说，人脸识别系统的错误率很高。尽管有几项非深度人脸识别算法针对种族偏差做出了改进，但在深度学习时代，这一领域仍然是空白的，因为现有的种族偏见数据库由于其规模小和条件限制，不再适用于深度人脸识别算法；而常用的深度数据库测试数据库则不具有明显的种族多样性。

表1：常用训练测试数据库中不同人种所占比例

为了促进对这一问题的研究，作者构建了一个新的自然场景下的种族人脸（RFW）数据库，来公平地衡量深度人脸识别中的种族偏差。

图1：RFW数据库的示例和平均脸。从上到下依次为：白种人、印度人、亚洲人、非洲人。

基于在RFW上的实验，作者发现商业API和学术界最先进的算法都确实存在种族偏差：非洲人脸识别的错误率大约是白种人（高加索人）的两倍。

表2：深度人脸识别系统的种族偏差

为了研究由训练数据引起的偏差，作者还收集了一个种族平衡训练数据库，并验证了种族偏差在数据和算法两个方面都存在：即使在平衡的数据库上训练，一些特定的种族还是更难识别；为了消除种族偏差，需要对算法进行进一步的研究。

深度无监督域适应UDA

深度无监督域适应利用相关源域中的标记数据在目标域中执行新任务。然而，目前适用UDA的研究仅限于目标分类，很少有人将UDA用于人脸识别任务。作者受到GAN中Inception Score的启发，引入互信息作为域自适应的正则化项，提出了一种新的信息最大化适应网络（IMAN），以无监督的方式解决人脸识别中的种族偏差问题。

实验结果表明，IMAN能将识别知识从高加索（源）域迁移到其他种族（目标）域，其表现要优于其他无监督域自适应（Unsupervised domain adaption, UDA）方法。此外，IMAN也有助于通用的深度模型适应特定的数据库。

这篇论文的贡献有三个方面：

（1）构建并发布了一个新的RFW数据集，可用于种族偏差的研究。

（2）综合性实验验证了深度人脸识别算法中种族偏差的存在和原因。

（3）提出了新的IMAN网络解决种族偏差问题。

2 RFW数据库（Racial Faces in-the-Wild）

作者构建了包含四个测试子集的RFW数据库，即高加索人、亚洲人、印度人和非洲人。每一个子集包含约10K张人脸图像，属于3K个不同身份，用于人脸验证。所有这些图像都经过了仔细的数据清洗，排除了RFW和常用训练数据集之间的重叠身份。

对于性能评估，作者建议同时使用ROC曲线和类LFW协议。ROC曲线旨在报告一个全面的性能，在3K个身份所有图像对（约14K个正样本和50M负样本）上评估算法。类LFW协议有助于在6K对图像上对算法进行简单而快速的比较。此外，作者选择了“困难”对，以避免容易出现性能饱和。

在RFW中，每个种族的图像都是从MS-Celeb-1M中随机采集的，没有任何偏向，因此它们能够公平地衡量种族偏差。并且，在不同种族中，人们的姿态、年龄和性别分布是相似的。下图给出了由Face++测量的详细分布。从这些数字可以看出，不同种族之间没有显著差异。

图2：RFW数据

此外，(e)和(f)显示了3K困难样本对的姿态和年龄差距分布，这表明所选择的困难对在不同种族之间也是公平的，并且包含较大的类间差异。

图3：RFW中的一些困难样本对

上图给出了6K样本对的一些例子，从图中可以看出，一些样本甚至对人类来说都是非常具有挑战性的。

3 信息最大化自适应网络

在域自适应中，源域是一个标记训练集，即Ds={xsi，ysi}，其中xsi是第i个源样本，ysi是它的类别标签，M是源图像的个数。目标域是一个未标记的训练集，即Dt={xti}，其中xti是第i个目标样本，N是目标图像数。两个域的数据分布不同，P(Xs,Ys)≠P(Xt,Yt)。算法的目标是学习域之间的深度特征不变量，并以无监督的方式提高目标图像（有色人脸）在人脸识别任务中的表现。在人脸识别中，两个域的身份（类）不重叠，为人脸识别带来了不同于其他任务的独特挑战。

Pre-adaption：基于聚类伪标签的预适应

传统的UDA方法使用源分类器来预测目标域中的伪标签，网络可以使用有监督损失进行微调。但是，由于人脸识别中两个域之间的身份不重叠，这些方法虽然成熟但并不适合。因此，作者在UDA中引入一种聚类算法，为pre-adaption训练产生伪标签。聚类算法的具体步骤如下：

首先，将未标注目标数据Xt输入网络，生成深度特征F(Xt)。然后用深度特征建立N*N邻接矩阵，N为目标域人脸数目，矩阵第（i，j）项为目标人脸xti和xtj之间的余弦相似度。

然后，根据邻接矩阵建立聚类图G(n,e)，节点ni表示第i个目标人脸，边指示两个目标人脸的余弦相似度与参数λ之间的关系：

最后，将连接了至少p个节点的图像保存为一个簇（cluster），并获取这些目标图像的伪标签。因此，只获得部分图像的伪标签，具有较高的置信度，以减轻伪标签样本带来的负面影响。然后用Softmax损失对网络进行预适应。

Discriminant adaption：基于互信息损失的判别适应

虽然预适应（pre-adaption）已经得到了对目标图像的初步预测，但由于伪标签的不完善，不足以提高目标域的表现。如何才能充分利用目标图像，并学习更多的判别表示呢？在初步预测的基础上，作者提出在没有标签信息的情况下进一步优化分类器输出的分布。其中一个想法是通过扩大分类器对某一个类的输出，同时以无监督的方式抑制其他类的输出，在特征空间中学习大的决策边界。与有监督的互信息不同，这里的MI损失最大化无标签目标数据Xt和分类器预测Ot之间的互信息。

分类器预测p(Ot|xti)的理想条件分布应为[0，0，…，1，…，0]，对边界较大的样本进行分类比较好。H(Ot|xti)有效地满足了这一要求，因为当分类器的预测分布是均匀时，该熵项是最大化的，反之亦然。然而，在完全无监督学习的情况下，简单地最小化这个熵将导致更多的决策边界被移除，使大多数样本被分配到同一类。因此，作者选择类别的均匀分布。分类器预测p(Ot)的边界分布估计如下：

最大化Ot的熵可以让样本在数据类别上均匀分布。

在信息论中，X与Y的互信息可以表示为两个熵项的差：

如果X之间Y有一个确定的、可逆的函数关系，就能得到最大的互信息。因此，作者将两个熵项结合，得到数据Xt和预测Ot之间的互信息：

第一项是Ot条件分布的熵，能够扩大分类器对某一类别的输出，并抑制对其他类别的输出；第二项是Ot边界分布的熵，能够避免大量样本被分到同一类。N为目标图像的数量，Nc为目标类别的数量。但是没有真实标签的情况下如何获得Nc并保证分类器的预测概率呢？作者利用上一步的聚类伪类标，用聚类中心的数量代替Nc，然后获得初始预测，保证互信息损失的准确性。

Adaptation network

图4：IMAN整体结构。步骤1：伪适应，利用聚类算法生成伪类标，获得在目标域上的初步提升；步骤2：MI适应，利用互信息损失，优化分类器输出的分布，学习更大的决策边界。

如图4所示，IMAN由共享权重的源CNN和目标CNN组成。最大平均差异（MMD）估计器是一种标准的分布距离度量，用于衡量域差异，放在网络高层的自适应层。源CNN的输入是源标记图像，而目标CNN的输入是目标未标记数据。训练的目标是最小化以下损失函数：

Lm(Xt)为目标数据Xt的互信息损失，Lc(Xs,Ys)为源域的分类损失。第二项为源样本和目标样本在第l层的特征表示的MMD距离。

IMAN的算法总结如下：

源分类损失监督源域的学习进度，MMD最小化域差异以学习域不变表示。此外，在预训练阶段，MMD为聚类提供了更可靠的目标表示，从而提高了伪标签的质量。基于聚类的伪标签可以初步改善目标域的表现，保证网络对无监督MI损失的预测精度。MI损失可以进一步充分利用所有目标数据，无论它们是否成功聚类，学习更大的决策边界，提高网络对目标域的判别能力。

4 实验结果

种族偏差实验

作者采用类似ResNet-34架构，在CAISA-Webface数据库上用Arcface 损失进行训练，称为Arcface(CASIA)模型。Casia Webface由0.5M张名人照片组成，共10K个身份，其中85%的照片是白种人。

种族偏差的存在

作者用Arcface(CASIA)模型提取了RFW中6000样本对的特征，并比较了余弦距离的分布，如图©所示。

图5：(a)测试子集的特征空间；(b)不同种族的分布差异；(c)6000样本对的余弦距离分布差异。

高加索人的分布比其他种族有更明显的边缘，从视觉上证明了非高加索人的识别错误要高得多。作者在RWF上实验了学界最先进（SOTA）的算法，Center loss, Sphereface, VGGFace2和ArcFace，以及四个商业识别API，Face++、百度、亚马逊和微软。

图6给出了在所有对上评估的生物测定roc曲线：

图6：在所有样本对上测试的ROC曲线

表2：类lfw协议的识别精度

首先，所有SOTA算法和API在白种人测试子集上表现最好，其次是印度人，在亚洲和非洲表现最差。这是因为，在白种人居多的数据上训练的特征，会丢弃对识别非白种人面孔有用的信息；第二，东亚公司开发的API对亚洲人的识别效果更好，而西半球开发的API则对白种人的效果更好。

域差异的存在

作者在特征层面进行了可视化和定量比较。如图5（a）所示，作者用Arcface(CASIA)模型提取了1.2K图像的深度特征，并分别使用t-SNE进行可视化。不同种族的特征几乎完全不同。图5（b）中，作者使用MMD来计算白种人和其他种族的图像之间的分布差异。从这些数据中，可以得出相同的结论：白种人与其他种族之间的分布差异要远远大于白种人自身的分布差异，这说明不同种族人脸之间存在着域差异。

种族偏差的原因

作者构建了一个均衡的数据集Equalizedface，它包含14K个名人的590K张图像，与CASIA Webface数据库具有相似的规模，但种族之间基本平衡，每个种族有3.5 K个身份。以Equalizedface为训练数据，采用与Arcface(CASIA)模型相同的方法训练Arcface(Equal)模型，并对比了它们在6000个困难的RFW数据对上的性能：

表3：在不同数据库上训练的ResNet-34模型的验证准确率

与Arcface(CASIA)模型相比，Arcface(Equal)模型对所有种族的识别效果都很好，证明了数据库中的种族偏差会体现在人脸识别算法中。然而，即使平衡训练，非白种人的识别效果仍然不如白种人。这可能是由于有色皮肤的人脸更难提取和预处理特征，特别是在黑暗环境下。此外，作者还对同一种族的7K身份的训练特定模型，其性能比平衡（每个种族3.5K人）要低一些。作者认为由于相似的低级特征，不同种族人脸之间存在着协同关系，因此种族人脸的混合能提高识别能力。

域适应实验

数据集

根据RFW，作者构造了一个包含四个种族子集的训练集。如表4所示，一个训练子集包含约有标记的10K个白种人共500K张图像，另外三个子集分别包含50K个未标记的非白种人图像。以白种人为源域，其他种族为目标域，对算法进行了评估。

表4：训练和测试数据集数据

实验结果

作者进行了三项UDA任务，即将知识从高加索人转移到印度人、亚洲人和非洲人。作者与两个将UDA应用于人脸识别任务的方法DDC和DAN进行了对比。

表5和图7给出了实验结果。

表5：RFW数据库上6000个样本对的验证准确率。

图7： Arcface、DAN-A和IMAN-A模型分别在印度、亚洲、非洲子集上的ROC曲线。

首先，没有域适应的Arcface（CVPR2019，在LFW和Megaface挑战赛上的SOTA方法），由于种族差距，无法在非白种人身上获得较好的表现。其次，DDC和DAN方法与Softmax和Arcface模型相比，改进有限，这也证实了目前流行的基于源域和目标域全局对齐的方法不足以进行人脸识别。第三，IMAN-A（使用Arcface损失）和IMAN-S（使用softmax损失）的性能明显优于其他方法，IMAN-A的性能比Arcface模型提高了3%。在第二阶段使用Arcface的IMAN*-A模型在印度、亚洲和非洲的集合中分别获得了94.15%、91.15%和91.42%的最佳性能。在高加索→非洲任务上，通过交替迭代地执行预适应和MI适应来进一步优化IMAN*-A，并在图8中显示出每次迭代的精度。可以看出性能逐渐提高直至收敛。

图8：IMAN*-A不同迭代的验证准确率。

消融研究

与现有的UDA方法相比，IMAN有两个主要贡献，即伪自适应和MI自适应。为了评估它们的有效性，作者进行了消融研究。

表6：在RFW6000样本对上进行的消融研究

在表6中，IMAN 去除伪标签的结果是较差的，因为MI损失依赖于伪自适应以保证分类器的准确性，并且仅使用随机初始化的分类器执行MI自适应是没有意义的。从IMAN 去除MI自适应的结果可以看出，伪适应比基线平均高出约2.3%，而IMAN比伪适应高出约1.1%。结果表明，算法的两个组成部分对减少种族偏差均有独特的作用。

可视化

为了验证IMAN学习特征的可迁移性，在特征层进行了可视化比较。首先，分别用Arcface模型和IMAN-A模型随机提取了白种人→非洲人10K源图像和目标图像的深层特征。使用t-SNE将特征可视化：

图9：(a)高加索→非洲任务的特征可视化；(b)源域和目标域的分布差异

如图9(a)所示，自适应后，更多的源数据和目标数据开始在特征空间中混合，使它们之间没有边界。其次，作者分别使用Arcface和IMAN-A的特征计算源域和目标域之间的域差异。图9(b)显示出使用IMAN-A特征的差异远小于使用Arcface的差异。因此，我们得出结论，IMAN确实有助于最小化域差异，并且MMD有助于对齐两个域之间的特征空间。

总结

种族偏差是存在于人脸识别系统的一个问题，一个终极的人脸识别算法应该在不同的种族上有公平的表现。作者迈出了第一步，建立了RFW种族人脸数据库，以公平地评估种族偏差。通过实验，作者首先验证了种族偏差的存在。然后，从域适应的角度对其进行了研究，设计了一种新的IMAN方法来弥补域差异。实验证明了IMAN在减少种族偏差方面的潜力和有效性。

论文原文链接：

https://arxiv.org/abs/1812.00194

论文项目及开放数据集：

http://whdeng.cn/RFW/index.html

创作场景

北邮团队研究指出人脸识别算法存在偏差，微软、亚马逊、百度、旷视纷纷中招