为了推动该研究,邓伟洪研究团队构建了一个新的测试库——RFW,以科学客观地评测人脸识别中的偏差。在RFW数据库的基础上,研究人员验证了微软、亚马逊、百度、旷视的商业API和学术界最先进的4个算法。
“这种识别的偏差确实存在,一些地区的错误率甚至高于西方国家的两倍。”邓伟洪说。
该论文的评审专家表示,RFW与现有数据库相比,该数据库中的数据分布更均匀,这将成为跨国家/地区识别的一个较好的基准评价数据。
为了探究这种偏差是否是由训练数据的分布不平衡引起的,研究人员收集了一个涵盖全球各地区人类信息的训练数据库,最终发现偏差的发生受到数据和算法两方面影响。
该论文第一作者、北京邮电大学博士生王玫解释,数据库训练数据平衡、算法相同,但某些国家/地区人类的面部信息识别难度较大,导致识别准确率较低。
如何在数据少、面部识别难的情况下提高识别率?研究人员并没有放弃,他们决定进一步的研究算法,借助算法让人脸识别工具举一反三。
学习靠“自觉”
传统机器学习数据库搭建过程中需要人工标注个人信息,这一操作面临隐私泄露的风险。用于物体识别的无监督域自适应方法给了研究人员启发。
该方法采用无监督学习的方式,将源域和目标域映射到域不变的特征空间,并提高目标域性能。研究人员想通过算法解决这一问题,让机器自行学习。
“这就相当于研究人员把试卷出好,机器作答。”邓伟洪说。
实现并不简单,在具体操作层面,物体识别不同于人脸识别。物体识别的源域和目标域可以重叠,且信息获取相对便宜,充足的源域数据使识别工具能够区分和判别目标域信息。
因此,研究人员提出了一种信息最大化自适应网络。王玫介绍,该方法一方面减小源域和目标域的全局分布差异,另一方面能够学习有区分性的目标域特征。
“也就是说,卷积神经网络可以在无监督的情况下,‘自觉’地学习目标域人脸的特征。”王玫说。
为了解决两个域之间类别不重叠的问题,信息最大化自适应网络采用谱聚类算法生成“伪标签”,并在监督下利用伪标签对网络进行预适应,初步提高目标域的性能。
这种聚类方案与其他不适用于人脸识别的域自适应方法有着本质区别。王玫解释,新方法可以在全新的目标域上自主学习,不需要人工干预,避免了隐私泄露的风险。
为了进一步提高网络输出的鉴别性,研究人员还提出了一种新的基于互信息的自适应方法,它以无监督的方式在目标域的特征之间产生更大的间距。