写点什么

解读计算机视觉的 2020 :自监督学习、数据跨域分析成研究热点,疫情相关应用落地加快

  • 2020-12-30
  • 本文字数:3187 字

    阅读完需:约 10 分钟

解读计算机视觉的2020 :自监督学习、数据跨域分析成研究热点,疫情相关应用落地加快

本文是 InfoQ“解读 2020”年终技术盘点系列文章之一。


2020 年,新冠疫情肆虐全球,严重扰乱了原有的生活秩序,给各个行业带来严重的打击。在这一年里,人工智能相关技术和产业也迎来了全新的问题和挑战。


笔者将从计算机视觉在学术界的发展和工业界的应用两个角度出发,对这一年来涌现出的新技术和新方法进行回顾和总结,并展望明年的发展趋势。


计算机视觉技术在学术界的发展


过去的几年里,科研人员主要着眼于计算机视觉技术在图像分类、目标检测以及语意分割等任务中的研究和应用。


随着算法精度的不断提升,自从今年开始,科研人员逐渐将注意力转向自监督学习、数据跨域分析以及轻量化模型设计等更加基础的研究工作中。


1.1 基于 Transformer 的目标检测


Facebook 提出的 DETR(DEtection TRansformer)是今年备受关注的一项代表性工作。该工作摒弃了现有的经典目标检测算法如 SSD、YOLO、Faster-RCNN 中广泛使用的 Anchor、NMS 等处理过程,借鉴自然语言处理领域广泛使用的 Transformer 结构来进行目标检测任务,实现了真正意义上的“端到端目标检测”,也该领域提供了一种全新的解决方案。


完整的 DETR 模型共包含两个部分,分别是由卷积神经网络(CNN)构成的特征提取模块,和基于 Transformer 的 Encoder-Decoder 模块,具体算法框架如图 1 所示。在目标检测任务中,DETR 按照集合预测的方式直接对目标进行检测和识别,既保证了预测结果与实际标注的一一对应,又不需要设置密集的 Anchor。


从检测精度来看,DETR 优于 Faster-RCNN 等常用算法,但是该方法对于小目标的检测能力较差。此外,基于 Transformer 的 DETR 模型具有较强的泛化性,预训练模型经过简单的调整,即可应用于实例分割等任务。基于 Transformer 的 DETR 模型虽然思路新颖,但也存在收敛速度慢、精度不足等缺点。


在 DETR 的基础之上,科研人员又提出了多种基于 Transformer 的目标检测算法,如 Deformable-DETR、UP-DETR 等,从不同角度来解决原始 DETR 模型的缺点,并取得了较好的结果。在计算机视觉领域中,Transformer 不仅仅只被用于目标检测任务中,在图像分类、人体姿态估计、文字识别等问题上也被广泛应用,并取得了良好的效果。



图 1 DETR 算法框架


1.2 自监督学习


自监督学习是当下计算机视觉领域一项热点研究课题。


自监督学习是指模型可以从大量无标签数据中自动的学习所需的知识。在人工智能领域中,模型需要对大量精确标注的数据进行建模和分析,从中学习用于解决某些问题的特定规律。在情绪识别、医学图像处理、3D 关键点检测等实际任务中,很难获取大量精确标注的数据,因此如何使用大量无标签数据,并设计恰当的算法,来指导模型自动学习成为了一项备受关注的问题。


以面部运动单元(Action Unit)识别问题为例,为了提升该任务的识别精度,中科院计算所提出了一种基于自监督学习的特征解耦算法(TACE),该方法从数据角度出发,指导模型从大量的无标注人脸视频数据中解耦出用于描述面部运动单元的 AU-Feature 和用于表示头部姿态的 Pose-Feature,然后通过图像重建的方式,将不同图像之间的特征进行迁移。


TCAE 有效的解决了面部运动单元识别问题中训练数据匮乏、标注精度不足等问题,明显提升了面部运动单元算法的识别精度。


在 TCAE 的基础上,科研人员又提出了一种基于注意力机制的自监督学习算法,在 BP4D、GIF 等多个数据集上,测试精度优于现有的有监督学习方法。


在表情迁移领域,自监督学习算法也同样大放异彩。被公众熟知的 DeepFake 方法需要对特定的数据进行单独调优,因此并不是一个通用的表情迁移方法。


为了设计一种通用的人脸表情迁移模型,Samsung 研究院提出了一种基于自监督学习的图像生成方法,该工作设计了两个编码器(Encoder)分别用来提取人脸图像的 ID 特征和姿态特征,然后使用解码器(Decoder)来重建人脸。该方使用大量未标注的人脸视频数据进行训练和优化,并取得了优异的结果。


1.3 轻量化目标检测算法


目标检测算法是计算机视觉中的一项基础任务,在安防、无人驾驶等多种实际问题中均被广泛应用。


在学术界,科员人员一方面探索高精度的检测模型,另一方面也在设计轻量化的通用目标检测器。


随着人工智能产业落地的进程逐步加快,轻量化目标检测模型备受关注。今年 Yolo 系列算法也从 V3 逐步更新到 V5。Yolo-V5 模型通过优化特征提取网络、Anchor 数量、超参配置方式、图像增广方法,既提升了检测精度,有加快了推理速度。目前该方法已经被工业界大量使用。


计算机视觉技术在工业界的应用


2020 年新冠疫情的爆发,为人工智能相关产业的落地和应用带来了更多的挑战和机遇。


下面将对计算机视觉技术在工业界应用进行介绍。


2.1 口罩人脸识别


佩戴口罩是当前阻隔病毒传播最好的方式之一,因此成为我们日常生活中的必需品。佩戴口罩会遮挡大量的面部区域,从而导致现有的人脸识别系统失效。在公共区域摘下口罩完成人脸识别有可能面临交叉感染的风险,因此设计并研发出稳定的口罩人脸识别算法成为今年的一项重点工作。


各大公司分别从视觉注意力机制、特征恢复重建以及细粒度特征识别等不同角度提出了相应的解决方案,为阻止疫情蔓延和增长贡献了一份力量。


图 2 口罩人脸识别


2.2 无接触式测温


无接触式测温,通常被我们称为 AI 测温,是疫情爆发初期最早被投入市场的人工智能产品之一。


该技术通过人体识别、人像检测、红外传感器测温等多种计算机视觉和传感器融合等多种创新技术,来实现无接触式测温方案。


这种方法可以快速的鉴别出密集人流中的体温异常人员,并与现有的人脸识别、目标追踪等 AI 技术配合,准确的定位到个体,减小公共场所工作的人员的压力,提升群众出行便捷度和安全性。


图 3 无接触测温设备


2.3 无人配送


在科幻电影中经常出现的无人配送随着科技的进步和发展逐渐成为了现实。


美国科技巨头 Amazon 的无人机配送服务以于 2013 年底进行测试,并逐渐开始商业化运营。国内的无人配送服务虽然起步稍晚,但最近几年飞速发展,京东、阿里等科技公司也相继展开了无人配送服务。今年疫情期间,为了防止病毒传播和扩散,国内各大科技公司更是大力增加相关技术的研发力度。


目前,无人配送设备大多使用计算机视觉技术作为核心解决方案,其中主要涉及到目标检测、图像分割、文字检测与识别等多项技术。无人配送服务的大量普及也是计算机视觉技术落地和应用的一种具体表现。


疫情期间,京东科技的智能物流机器人帮助武汉市第九医院运送医疗物质和生活用品;苏宁集团的 5G 配送机器人辅助门店提供无接触式配送服务;美团的无人配送车辆更是出现在北京市的多个社区中,为社区居民提供外卖和生鲜配送服务。大量无接触式配送服务的出现,既缓解了疫情传播的风险,又为人们的生活提供了便利。



图 4 无人配送外卖车


2.4 视频传输压缩技术


随着疫情在全球蔓延,大量公司逐渐转向居家办公,工作人员之间的交流和沟通主要依赖于网络会议软件,如腾讯会议、zoom 等。


但随着远程办公人数的增加,视频会议软件承载的流量呈现出指数型增长的态势,网络延迟、丢包、视频卡顿等是有发生,严重影响与会者的使用体验。


针对这一问题,Nvidia 公司提出了一种基于小样本学习的视频压缩技术。该方法通过提取输入视频的头部运动姿态、ID 特征以及光流信息,然后通过人脸关键点来辅助人脸图像重建。


实验结果显示,与现有的网络视频传输方法相比,该方法仅使用原来 10%的带宽,即可达到同等的画面清晰度。


图 5 画质清晰度对比


展望


计算机视觉技术在这一年里蓬勃发展,涌现出了一系列优秀的论文和项目,助力疫情防控和社会复工复产。在今后的一段时间内,笔者认为计算机视觉技术在学术上会沿着无监督学习、自监督学习等方向快速发展;同时计算机视觉与自然语言处理之间的界限会逐渐模糊,甚至有可能出现一种统一的解决方案。


在产业化方面,基于计算机视觉技术的应用会逐渐渗透到我们的日常生活中;此外,无人驾驶、无人配送等技术也将加速落地。


作者介绍 :


沙宇洋,中科院计算所工程师,北京邮电大学硕士,目前主要从事人脸识别以及无人驾驶等相关方向的研究和实际产品开发。

2020-12-30 14:492552
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 552.6 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

2022-09-29:在第 1 天,有一个人发现了一个秘密。 给你一个整数 delay ,表示每个人会在发现秘密后的 delay 天之后, 每天 给一个新的人 分享 秘密。 同时给你一个整数 forg

福大大架构师每日一题

算法 rust 福大大

Java中synchronized关键字到底怎么用,这个例子一定要看!

wljslmz

Java synchronized 9月月更

还不了解堆栈和队列吗?数据结构最基础、最重要的概念必须掌握!

wljslmz

数据结构 堆栈 队列 9月月更

2022年中国HR SaaS行业洞察

易观分析

HR SaaS

透视星环科技上市:基础工具、技术融合、场景应用三维击穿

易观分析

数据

万字详文,剖析企业数字化的降“本”增效

阿里技术

数字化 降本增效

【kafka异常】使用Spring-kafka遇到的坑

石臻臻的杂货铺

Kafk 9月月更

Python应用之求100以内的奇数和

芯动大师

9月月更 变量和循坏的应用 递归求和

【web开发基础】PHP快速入门(5)-PHP运算符之算术运算符和字符串运算符详解

迷彩

运算符 php开源 9月月更 web开发基础 算术运算符

【编程实践】利用Python看看那些QQ好友都在QQ空间发了啥

迷彩

词云图 selenium Python爬虫 9月月更 结巴分词

leetcode 226. Invert Binary Tree 翻转二叉树(简单)

okokabcd

LeetCode 数据结构与算法

APISIX是怎么跑起来的

geange

lua api 网关 APISIX 网关 APISIX的源码解析

Java中Interface天天都在写,你知道其背后的原理是什么吗?

wljslmz

Java 接口 9月月更

VUE 数据分页

HoneyMoose

OptaPlanner快速入门-helloworld

积木思维

【web 开发基础】php 开发基础快速入门 (3)-PHP程序符号标记和程序注释的使用及空白符详解

迷彩

php开源 9月月更 web开发基础

Python应用之九九乘法表

芯动大师

9月月更 九九乘法表的实现 变量和循坏的应用

Python之如何判断闰年

芯动大师

9月月更 判断闰年 format格式化字符串

Java中只有8大数据类型吗?看了本文,你会收获颇丰

wljslmz

Java 数据类型 9月月更

物联网平台常见问题与答案汇总

阿里云AIoT

数据 物联网平台 物联网 协议 mqtt

Spring Security 介绍中的 servlet 和 reactive

HoneyMoose

数据结构第六章查找,期末不挂科指南

梦想橡皮擦

数据结构 9月月更

VolareFinance 测试网教程(更新)

鳄鱼视界

也谈“我们开发者根本不想做运维!”

愚夫一得

DevOps 语言 & 开发 文化 & 方法 技术中台 运维‘

【web 开发基础】php 开发基础快速入门 (4)-PHP常量详解

迷彩

php 常量 9月月更 魔术常量

九月书单

图灵教育

科普 计算机 新书

【云原生 | 从零开始学Kubernetes】十三、k8s的容器探测以及启动探测

泡泡

云计算 容器 云原生 k8s 9月月更

九月书单

图灵社区

科普 计算机 新书

云渲染比自己的电脑好用太多,这4个因素要考虑

Finovy Cloud

人工智能 云计算 渲染 云渲染

数据结构第七章排序,期末不挂科指南

梦想橡皮擦

数据结构 9月月更

数据结构第五章图,期末不挂科指南

梦想橡皮擦

9月月更

解读计算机视觉的2020 :自监督学习、数据跨域分析成研究热点,疫情相关应用落地加快_AI&大模型_沙宇洋_InfoQ精选文章