抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

澎思科技刷新视频行人再识别(Video-based ReID)三大数据集世界纪录

2019 年 8 月 23 日

澎思科技刷新视频行人再识别(Video-based ReID)三大数据集世界纪录

继在三大主流单帧图片行人再识别数据集(Market1501,DukeMTMC-reID,CUHK03)刷新世界纪录后,近日,澎思科技(Pensees)在基于视频的行人再识别数据集(PRID-2011,iLIDS-VID,MARS)中再次取得突破性进展,并在三大数据集上实现算法关键指标首位命中率(Rank-1 Accuracy)大幅度提升,准确率创历史新高。



实现关键指标提升,新算法刷新三大数据集世界纪录


PRID-2011、iLIDS-VID 和 MARS 均为基于视频的行人再识别数据集。PRID-2011 数据集中的视频对通过两个固定的监控摄像头进行采集,摄像头 A 包含 385 个行人,摄像头 B 包含 749 个行人。这些行人中,只有 200 个行人同时出现在两个摄像头中。iLIDS-VID 是在 PRID-2011 之后公布的数据集,与 PRID-2011 相比,数据更加整齐,也更有挑战性。iLIDS-VID 数据集是通过机场到达大厅的 CCTV 监控视频采集得到的,包含 300 个行人在两个摄像头下的 600 段视频。视频中存在严重的着装相似,光照和视角变化,复杂背景和遮挡现象,因此识别难度大。MARS 数据集是目前基于视频 ReID 最大的数据集,是单帧图片行人再识别数据集 Market1501 的扩充版,图像数量由 32,668 幅扩展到了 1,191,003 幅。


与单帧图片的行人再识别数据集一样,首位命中率(Rank-1 Accuracy)和平均精度均值(Mean Average Precision,mAP)是衡量视频行人再识别 ReID 算法水平的核心指标。澎思科技此次一举实现在三大数据库上,仅利用原始数据就实现 Rank-1 Accuracy 关键指标大幅度提升。目前,澎思科技算法在最大的视频数据集 MARS 上的首位命中率指标已经达到 88.8%,领先香港中文大学、中科大、北京大学等国内外知名机构。在 iLIDS-VID 和 PRID-2011 等数据集上首位命中率也分别达到了 88.0%和 95.5%。



澎思科技行人再识别 ReID 算法在 MARS 数据集的部分测试结果


新算法立足于现实场景


澎思科技此次成果的取得源于澎思新加坡研究院对算法的自研创新和融合探索,是立足于澎思现有业务和商业模式,结合公司的发展方向针对性开展垂直领域技术研发和创新。主要包括以下几个方面:


  1. 受遮挡、姿态变化、视角变化等因素的影响,视频序列中行人的特征是不连续的。用全局特征来度量每一帧图片的权重往往会损失掉许多重要的信息。采用分割重组策略将特定局部特征重组成多个视频序列进行学习,进而极大减少局部特征损失对最终特征的影响。

  2. 其次,提出了全新的双向图注意力机制模块。将图卷积神经网络和 SENet 完美结合,在整个序列上进行通道域的模式选择学习。同时通过双向网络进行空间域的注意力区域学习。由于图卷积网络的特性,每一帧图片的注意力特征都是与其他帧相互学习结合的结果,从而极大提高特征的代表性。

  3. 最终,利用帧间相似度进行序列融合。与大多数利用循环神经网络进行融合算法相比,最大的优势是不需要训练额外的模型参数,仅仅通过数学计算的方式就可以达到融合的目的。这样,数据的类内相似度得到了极大的提高。在结合三元损失函数进行训练后,类间相似度得到了降低,进而提高重识别效果。

  4.  


基于视频的行人再识别与单帧图片的行人再识别任务目的是相同的,即在视角不重叠的多摄像机网络下进行行人的匹配。尽管基于单帧图片的行人再识别算法已经取得了不错的进步,但由于单帧图片只包含有限的行人信息,网络提取的特征不具备足够的代表性,检测结果往往受图片质量的影响较大。 


与此相比,视频序列的优势便凸显出来。一个短视频序列往往包含行人多运动状态下的更多特征,并且利用时序信息,可以将背景、遮挡等干扰因素的影响降到最低,提升识别的准确度。


基于视频的行人再识别(ReID)技术更贴近智慧城市建设的诸多应用场景,能有效解决行人信息有限、特征不足及其他干扰因素等问题,相比单帧图片的行人再识别具备更长远的落地应用空间。接下来,澎思科技将进一步加大在视频行人再识别算法上的研究,并逐步将算法应用到平安城市、智慧社区、智慧园区、智慧零售、智慧交通等实战应用场景中。


2019 年 8 月 23 日 12:184066

评论

发布
暂无评论
发现更多内容

基于树莓派和OpenVINO的边缘计算

IT蜗壳-Tango

IT蜗壳教学 四月日更

面试官问:能聊聊你对充血模型和贫血模型的理解吗?

面试官问

领域驱动设计 DDD 充血模型 贫血模型

SumSwap与金色财经共为 首席创新合作大会在上海拉开帷幕

币圈资讯

释放千行百业数据价值,华为云DAYU有一套

华为云开发者社区

大数据 数据湖 华为云 数据价值 dayu

构建从目标到研发过程的全生命周期管理体验

PingCode

敏捷开发 研发管理 Jira Atlassian 敏捷开发管理 研发工具

科技“智”造:智慧工厂这样规划,既高效又节能

一只数据鲸鱼

数据可视化 工业物联网 智慧园区 智慧工厂

区块链给普通人带来的机会!

CECBC区块链专委会

区块链

从金融到物联网 区块链的落地应用将如何改变世界?

CECBC区块链专委会

区块链

区块链BaaS服务平台开发,助推中小企业快速落地

13828808769

区块链+ #区块链#

「开源免费」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之序列号自定义组件(四)

crudapi

Vue crud crudapi 序列号 quasar

“区块链+”司法合约,电子认证不造假

电微13828808271

区块链+

Linux scp 命令

一个大红包

4月日更

EGG NETWORK公链阿凡提以“完全开放式自治”的唯一标准搭建New-DeFi链上生态EFTalk

币圈那点事

什么是你上大学才知道的事情?

🌍

四月日更

Rust从0到1-结构体-方法

rust 方法 struct 结构体 method

强化区块链应用 破解知识产权运营难题

CECBC区块链专委会

区块链

Vue3教程:Vue 3.x 快在哪里?

十三

Vue Vue3 Vue 3

函数

奈奈奈奈

如何在 GitHub 上选择合适的开源工具和项目

耳东

GitHub 4月日更

传统金融体系vs新金融体系,区块链改变了什么?

CECBC区块链专委会

金融

构建基于Spring Cloud向Service Mesh框架迁移的解决方案及思路

xcbeyond

架构 云原生 Spring Cloud Service Mesh 解决方案

文字识别:关键信息提取的3种探索方法

华为云开发者社区

深度学习 文字识别 图结构 关键信息提取 栅格

“区块链新基建”可否发展可信平台?

电微13828808271

区块链+ 区块链新基建

我用Rocket-API实现了开放平台

棒锤🐮

并发的HashMap为什么会引起死循环?

Java小咖秀

hashmap 并发 并发容器

世界五百强第一的沃尔玛在用区块链做什么

CECBC区块链专委会

区块链

关于Go语言,你不得不知的并发模式!

博文视点Broadview

如何只用一个小时定制一个行业AI 模型?

华为云开发者社区

自然语言处理 华为云 hdc ModelArts Pro AI 模型

想快速重构智慧园区5A系统,这份方案推荐给你

华为云开发者社区

系统 智慧园区 HDC.Cloud 2021 端边云协同架构 南向系统

Angular,AngularJS 和 react

HoneyMoose

maven中心仓库OSSRH使用简介

程序那些事

Java maven 程序那些事

Study Go: From Zero to Hero

Study Go: From Zero to Hero

澎思科技刷新视频行人再识别(Video-based ReID)三大数据集世界纪录-InfoQ