写点什么

清华大学和芯翌科技联合发布全球最大的公开人脸数据集

  • 2021-03-16
  • 本文字数:2008 字

    阅读完需:约 7 分钟

清华大学和芯翌科技联合发布全球最大的公开人脸数据集

芯翌科技与清华大学自动化系智能视觉实验室合作,发布了业界规模最大的人脸数据集 WebFace260M,相关学术论文已经被计算机视觉国际顶级会议 CVPR2021 接收。该数据集完全基于全球互联网公开人脸数据构建,包含数百万 ID 和数亿图片,旨在进一步推动人脸识别相关技术的进步,促进智能化行业的发展,助力 AI 时代科技创新。


网站地址:https://www.face-benchmark.org 论文地址:https://arxiv.org/abs/2103.04098


随着人工智能技术的不断发展,越来越多生物识别技术融入到我们的日常生活中。人脸识别作为应用最广泛的生物识别技术,和指纹、虹膜等生物识别技术相比,以其非接触、高精度、便捷的优势,广泛落地于各行各业,是目前最受欢迎的生物认证方式。

人脸数据集发布背景


近年来,得益于深度学习技术的发展,经过业界多年来在数据集构建、神经网络架构、损失函数设计等方面的详尽研究,人脸识别技术在识别精度上已经取得了长足进步,并实现了大规模落地。但当前人脸识别仍然面临公开数据规模小、标准混杂、测评无法对齐等问题。其中,目前公开的人脸识别训练数据集中,规模最大的是 MegaFace2 和 MS1M,分别仅拥有 67.2 万 ID 和 470 万图片,以及 10 万 ID 和 1000 万图片,远远无法满足实际人脸识别系统的数据需求。可以说,公开数据规模与实际落地系统所需数据规模之间的巨大差距,已经较大程度上阻碍了当前人脸识别相关技术的持续发展


另一方面,评测准则和测试集也是影响人脸识别技术进一步发展的重要制约因素。目前公开的人脸识别评测集,包括 LFW、CFP、AgeDB、RFW、MegaFace、IJB 系列等,在精度上基本已经比较饱和。同时这些测试集对于人脸识别不同场景下的分类测评不够细致,没有持续迭代、升级和维护,也没有根据实际应用限制搭建评测准则。业界公认,NIST-FRVT 是一个完全独立的第三方测评系统,它的测试集非公开,测评指标分类详尽,并且对提交频次有严格限制和运行时间有严格要求,是目前唯一符合现实应用的测评系统。然而,也由于 NIST-FRVT 对提交频率和提交条件的严格要求,一定程度上也限制了人脸识别技术的发展。

WebFace260M 数据集情况


基于当前行业的现状,芯翌科技与清华大学的研究人员在 FRVT 参赛基础上,完全基于全球互联网公开人脸数据,联合推出了当前全球规模最大的人脸数据集 WebFace260M,人脸 ID 数目首次达到数百万,图片数目首次达到数亿规模,将很大程度上推动以深度学习为基础的人脸识别相关技术发展。


WebFace260M数据集和公开数据集在人脸ID和数量上的比较


同时在 WebFace260M 的基础上,芯翌科技和清华大学的研究人员采用自训练全自动迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST),得到 WebFace42M,是目前全球规模最大的可直接用于训练的干净人脸数据集。该数据集包含 200 万 ID 和 4200 万图片,ID 数目和图片数目相比目前使用最广泛、最受认可的公开数据集 MS1MV2 都提高了一个数量级以上。


针对目前人脸识别的评测问题,研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更广泛、更具挑战性、分类更细致的人脸测试集,这将推动人脸识别评测更靠近真实场景。同时,**研究人员将持续维护、迭代和升级该测试集以及评测系统,**助力行业技术发展。


数据集共同作者、芯翌科技 AI 算法技术总监黄冠表示:“基于发布的数据集、测试准则和测试集,我们进行了广泛的实验、对比和分析。分析结果表明,在新的高一个数量级的大规模数据、更贴近实际应用的评测准则、更具挑战的测试集等多项内容的综合评判下,大规模人脸识别问题在算法、系统、数据、评测等各个方面,存在相当多的问题需要学术界和工业界一起去探索和解决。”

WebFace260M 数据集指标


基于 WebFace260M 清洗得到的 WebFace42M 数据,能够在目前公开的、最具挑战性的 IJBC 测试集上,达到新的 SOTA (State-Of-The-Art),并把相对错误率降低了 40%。


基于WebFace42M,在IJBC测试集上取得了SOTA的性能


同时,仅基于 WebFace42M 的数据,芯翌科技在 2020 年 10 月 NIST-FRVT 的榜单上,取得了 1:1 人脸识别评测综合排名世界前三的成绩。



更进一步,以 WebFace42M 为基础,在 2021 年 3 月最新一期的 NIST-FRVT 榜单上,芯翌科技在戴口罩人脸识别评测中以绝对优势获得世界第一,并在 1:1 人脸识别评测综合排名世界前三。


打造开放、共享、安全的数据生态


芯翌科技研发副总裁都大龙表示:“在数字经济和智能化时代,数据资源是最宝贵的生产资料。人们可能需要像对待传统的生产资料,如土地资源、生产原料、工具设备等一样,去规划、生产、分享、交易、使用和保护新时代的生产资料——数据资源。”



然而目前,国内外普遍对数据资源这一重要的生产资料重视程度不够,行业规范不足,分享壁垒严重,缺乏长期规划。生产资料的匮乏,严重影响和制约了数字经济和智能化时代生产力的释放,限制了行业的发展。


芯翌科技和清华大学的研究人员深刻认识到数据资源对行业发展的重要性,合作推出了目前全球最大的公开人脸数据集——WebFace260M 以及相应的 Benchmark。通过这个数据集,希望能够助力 AI 时代科技创新,持续推动智能化产业落地。同时,也希望和整个学术界、产业界一起,打造智能化时代开放、共享、安全的数据生态。

2021-03-16 09:351205

评论

发布
暂无评论
发现更多内容

坚果的2022年终总结

坚果

年终总结 OpenHarmony

从源代码构建TensorFlow流程记录

京东科技开发者

tensorflow GitHub 开源 源代码 企业号 1 月 PK 榜

面试官:能用JavaScript手写一个bind函数吗

helloworld1024fd

JavaScript

字节前端高频手写面试题(持续更新中)

helloworld1024fd

JavaScript

面试官:说说React-SSR的原理

beifeng1996

React

字节前端必会react面试题

beifeng1996

React

了解下 Rust 的所有权机制

ooooooh灰灰

rust 后端 编译

vue组件通信6种方式总结(常问知识点)

bb_xiaxia1998

Vue

前端二面vue面试题(边面边更)

bb_xiaxia1998

Vue

2023前端必会手写面试题整理

helloworld1024fd

JavaScript

自己手写一个redux

helloworld1024fd

JavaScript

能够释放大量Mac内存空间的方法教程

茶色酒

CleanMyMac X CleanMyMac X2023

CleanMyMacX2023永久版Mac系统清理软件

茶色酒

CleanMyMac CleanMyMac X CleanMyMac X2023

阿里前端二面必会react面试题总结

beifeng1996

React

前端高频面试题集锦

loveX001

JavaScript

vue组件通信方式有哪些?

bb_xiaxia1998

Vue

滴滴前端一面高频vue面试题及答案

bb_xiaxia1998

Vue

勿以善小而不为,让AI成为温柔的力量

wood

AI 烟火气 温柔

osx安装mpd和ncmpcpp

alps2006

macos

Java高手速成│实战:应用数据库和GUI开发产品销售管理软件(1)

TiAmo

JDBC GUI 数据库·

CorelDRAW2023最新绿色免费版矢量图形处理软件

茶色酒

CorelDraw2023 CorelDraw

假如面试官问你Babel的原理该怎么回答

loveX001

JavaScript

如何实现购物车一键全选?

Towify

2022年后疫情时代旅游业发展的新趋势

易观分析

旅游 后疫情时代

LinearLayout(线性布局)

向阳逐梦

Android Studio android布局 LinearLayout weight属性

Portraiture2023汉化中文版磨皮滤镜软件下载

茶色酒

Portraiture2023 Portraiture

那些高级前端是如何回答面试题的

loveX001

JavaScript

TorchDynamo初探:Python ByteCode的动态修改

OneFlow

人工智能 深度学习 TorchDynamo

令人头秃的js隐式转换面试题,你能做对吗

loveX001

JavaScript

vivo 服务端监控体系建设实践

vivo互联网技术

云原生 监控 可用性 可观测

面试官:你是怎样进行react组件代码复用的

beifeng1996

React

清华大学和芯翌科技联合发布全球最大的公开人脸数据集_AI_芯翌科技_InfoQ精选文章