快手、孩子王、华为等专家分享大模型在电商运营、母婴消费、翻译等行业场景的实际应用 了解详情
写点什么

解读计算机视觉的 2020 :自监督学习、数据跨域分析成研究热点,疫情相关应用落地加快

  • 2020-12-30
  • 本文字数:3187 字

    阅读完需:约 10 分钟

解读计算机视觉的2020 :自监督学习、数据跨域分析成研究热点,疫情相关应用落地加快

本文是 InfoQ“解读 2020”年终技术盘点系列文章之一。


2020 年,新冠疫情肆虐全球,严重扰乱了原有的生活秩序,给各个行业带来严重的打击。在这一年里,人工智能相关技术和产业也迎来了全新的问题和挑战。


笔者将从计算机视觉在学术界的发展和工业界的应用两个角度出发,对这一年来涌现出的新技术和新方法进行回顾和总结,并展望明年的发展趋势。


计算机视觉技术在学术界的发展


过去的几年里,科研人员主要着眼于计算机视觉技术在图像分类、目标检测以及语意分割等任务中的研究和应用。


随着算法精度的不断提升,自从今年开始,科研人员逐渐将注意力转向自监督学习、数据跨域分析以及轻量化模型设计等更加基础的研究工作中。


1.1 基于 Transformer 的目标检测


Facebook 提出的 DETR(DEtection TRansformer)是今年备受关注的一项代表性工作。该工作摒弃了现有的经典目标检测算法如 SSD、YOLO、Faster-RCNN 中广泛使用的 Anchor、NMS 等处理过程,借鉴自然语言处理领域广泛使用的 Transformer 结构来进行目标检测任务,实现了真正意义上的“端到端目标检测”,也该领域提供了一种全新的解决方案。


完整的 DETR 模型共包含两个部分,分别是由卷积神经网络(CNN)构成的特征提取模块,和基于 Transformer 的 Encoder-Decoder 模块,具体算法框架如图 1 所示。在目标检测任务中,DETR 按照集合预测的方式直接对目标进行检测和识别,既保证了预测结果与实际标注的一一对应,又不需要设置密集的 Anchor。


从检测精度来看,DETR 优于 Faster-RCNN 等常用算法,但是该方法对于小目标的检测能力较差。此外,基于 Transformer 的 DETR 模型具有较强的泛化性,预训练模型经过简单的调整,即可应用于实例分割等任务。基于 Transformer 的 DETR 模型虽然思路新颖,但也存在收敛速度慢、精度不足等缺点。


在 DETR 的基础之上,科研人员又提出了多种基于 Transformer 的目标检测算法,如 Deformable-DETR、UP-DETR 等,从不同角度来解决原始 DETR 模型的缺点,并取得了较好的结果。在计算机视觉领域中,Transformer 不仅仅只被用于目标检测任务中,在图像分类、人体姿态估计、文字识别等问题上也被广泛应用,并取得了良好的效果。



图 1 DETR 算法框架


1.2 自监督学习


自监督学习是当下计算机视觉领域一项热点研究课题。


自监督学习是指模型可以从大量无标签数据中自动的学习所需的知识。在人工智能领域中,模型需要对大量精确标注的数据进行建模和分析,从中学习用于解决某些问题的特定规律。在情绪识别、医学图像处理、3D 关键点检测等实际任务中,很难获取大量精确标注的数据,因此如何使用大量无标签数据,并设计恰当的算法,来指导模型自动学习成为了一项备受关注的问题。


以面部运动单元(Action Unit)识别问题为例,为了提升该任务的识别精度,中科院计算所提出了一种基于自监督学习的特征解耦算法(TACE),该方法从数据角度出发,指导模型从大量的无标注人脸视频数据中解耦出用于描述面部运动单元的 AU-Feature 和用于表示头部姿态的 Pose-Feature,然后通过图像重建的方式,将不同图像之间的特征进行迁移。


TCAE 有效的解决了面部运动单元识别问题中训练数据匮乏、标注精度不足等问题,明显提升了面部运动单元算法的识别精度。


在 TCAE 的基础上,科研人员又提出了一种基于注意力机制的自监督学习算法,在 BP4D、GIF 等多个数据集上,测试精度优于现有的有监督学习方法。


在表情迁移领域,自监督学习算法也同样大放异彩。被公众熟知的 DeepFake 方法需要对特定的数据进行单独调优,因此并不是一个通用的表情迁移方法。


为了设计一种通用的人脸表情迁移模型,Samsung 研究院提出了一种基于自监督学习的图像生成方法,该工作设计了两个编码器(Encoder)分别用来提取人脸图像的 ID 特征和姿态特征,然后使用解码器(Decoder)来重建人脸。该方使用大量未标注的人脸视频数据进行训练和优化,并取得了优异的结果。


1.3 轻量化目标检测算法


目标检测算法是计算机视觉中的一项基础任务,在安防、无人驾驶等多种实际问题中均被广泛应用。


在学术界,科员人员一方面探索高精度的检测模型,另一方面也在设计轻量化的通用目标检测器。


随着人工智能产业落地的进程逐步加快,轻量化目标检测模型备受关注。今年 Yolo 系列算法也从 V3 逐步更新到 V5。Yolo-V5 模型通过优化特征提取网络、Anchor 数量、超参配置方式、图像增广方法,既提升了检测精度,有加快了推理速度。目前该方法已经被工业界大量使用。


计算机视觉技术在工业界的应用


2020 年新冠疫情的爆发,为人工智能相关产业的落地和应用带来了更多的挑战和机遇。


下面将对计算机视觉技术在工业界应用进行介绍。


2.1 口罩人脸识别


佩戴口罩是当前阻隔病毒传播最好的方式之一,因此成为我们日常生活中的必需品。佩戴口罩会遮挡大量的面部区域,从而导致现有的人脸识别系统失效。在公共区域摘下口罩完成人脸识别有可能面临交叉感染的风险,因此设计并研发出稳定的口罩人脸识别算法成为今年的一项重点工作。


各大公司分别从视觉注意力机制、特征恢复重建以及细粒度特征识别等不同角度提出了相应的解决方案,为阻止疫情蔓延和增长贡献了一份力量。


图 2 口罩人脸识别


2.2 无接触式测温


无接触式测温,通常被我们称为 AI 测温,是疫情爆发初期最早被投入市场的人工智能产品之一。


该技术通过人体识别、人像检测、红外传感器测温等多种计算机视觉和传感器融合等多种创新技术,来实现无接触式测温方案。


这种方法可以快速的鉴别出密集人流中的体温异常人员,并与现有的人脸识别、目标追踪等 AI 技术配合,准确的定位到个体,减小公共场所工作的人员的压力,提升群众出行便捷度和安全性。


图 3 无接触测温设备


2.3 无人配送


在科幻电影中经常出现的无人配送随着科技的进步和发展逐渐成为了现实。


美国科技巨头 Amazon 的无人机配送服务以于 2013 年底进行测试,并逐渐开始商业化运营。国内的无人配送服务虽然起步稍晚,但最近几年飞速发展,京东、阿里等科技公司也相继展开了无人配送服务。今年疫情期间,为了防止病毒传播和扩散,国内各大科技公司更是大力增加相关技术的研发力度。


目前,无人配送设备大多使用计算机视觉技术作为核心解决方案,其中主要涉及到目标检测、图像分割、文字检测与识别等多项技术。无人配送服务的大量普及也是计算机视觉技术落地和应用的一种具体表现。


疫情期间,京东科技的智能物流机器人帮助武汉市第九医院运送医疗物质和生活用品;苏宁集团的 5G 配送机器人辅助门店提供无接触式配送服务;美团的无人配送车辆更是出现在北京市的多个社区中,为社区居民提供外卖和生鲜配送服务。大量无接触式配送服务的出现,既缓解了疫情传播的风险,又为人们的生活提供了便利。



图 4 无人配送外卖车


2.4 视频传输压缩技术


随着疫情在全球蔓延,大量公司逐渐转向居家办公,工作人员之间的交流和沟通主要依赖于网络会议软件,如腾讯会议、zoom 等。


但随着远程办公人数的增加,视频会议软件承载的流量呈现出指数型增长的态势,网络延迟、丢包、视频卡顿等是有发生,严重影响与会者的使用体验。


针对这一问题,Nvidia 公司提出了一种基于小样本学习的视频压缩技术。该方法通过提取输入视频的头部运动姿态、ID 特征以及光流信息,然后通过人脸关键点来辅助人脸图像重建。


实验结果显示,与现有的网络视频传输方法相比,该方法仅使用原来 10%的带宽,即可达到同等的画面清晰度。


图 5 画质清晰度对比


展望


计算机视觉技术在这一年里蓬勃发展,涌现出了一系列优秀的论文和项目,助力疫情防控和社会复工复产。在今后的一段时间内,笔者认为计算机视觉技术在学术上会沿着无监督学习、自监督学习等方向快速发展;同时计算机视觉与自然语言处理之间的界限会逐渐模糊,甚至有可能出现一种统一的解决方案。


在产业化方面,基于计算机视觉技术的应用会逐渐渗透到我们的日常生活中;此外,无人驾驶、无人配送等技术也将加速落地。


作者介绍 :


沙宇洋,中科院计算所工程师,北京邮电大学硕士,目前主要从事人脸识别以及无人驾驶等相关方向的研究和实际产品开发。

2020-12-30 14:492417
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 527.4 次阅读, 收获喜欢 1975 次。

关注

评论

发布
暂无评论
发现更多内容

编程术语的类比(二)

北极的大企鹅

学习 思维转换 编程思想

推荐学java——SpringMVC第一课

逆锋起笔

springmvc java框架 Spring Java 3月月更

千万级学生管理系统的考试试卷存储方案

阿卷

架构实战营

java培训:多个线程同时访问一个类是否有问题方法

@零度

JAVA开发

运维接受新挑战!网易云原生运维体系建设之路

网易数帆

Kubernetes 云原生 运维自动化

Android编译优化系列-kapt篇

字节跳动终端技术

android 字节跳动 编译优化 火山引擎 火山引擎MARS

性能测试中过滤异常的响应时间

FunTester

性能测试 HTTP 接口测试 响应时间 FunTester

OCR产业应用实战,多类别电表读数识别方案详解

百度大脑

注入语句详解(get注入,cookie注入,搜索型注入等)

喀拉峻

网络安全

你真的会 i++吗

爱笑的小雨

教你3种Kafka的指定副本作为Leader的实现方式

华为云开发者联盟

Leader Kafk 副本 AR顺序

TCP协议:如何保证页面文件能被完整送达浏览器?

Tristan

前端 网络层 TCP协议

详解Swin Transformer核心实现,经典模型也能快速调优

百度大脑

深入分析沙箱逃逸漏洞

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞

Web 键盘输入法应用开发指南 (5) —— 实战技巧

天择

JavaScript 键盘 实战 输入法 3月月更

VuePress 博客如何开启本地 HTTPS 访问

冴羽

JavaScript Vue 前端 vuepress 博客搭建

在数字化与绿色的双轮之间,华为为全球企业搭建一道“车轴”

脑极体

不联网的情况下,使用 electron-builder 快速打包全平台应用

编程三昧

Electron 3月月更 electron-builder

ICLR 2022|唯快不破!北航、NTU、百度飞桨提出面向极限压缩的全二值化BiBERT

百度大脑

推荐 10 本 Go 经典书籍,从入门到进阶(含下载方式)

AlwaysBeta

Go golang 编程语言 书单推荐 Go 语言

编程术语的类比(一)

北极的大企鹅

思维转换 编程思想

如何避免黑客攻击?国内首个云端加密代码库来帮忙

阿里云云效

阿里云 云原生 云效 代码安全 代码加密

Curve 加入 PolarDB 开源数据库社区,强化分布式共享存储

网易数帆

数据库 postgresql 云原生 分布式存储 polarDB

烂书!《气候经济与人类未来》

懒时小窝

烂书

CPU占用率爆满,服务器遭遇挖矿如何排查

山河已无恙

Linux 3月月更

OceanBase 推出全新品牌 slogan

OceanBase 数据库

数据库 oceanbase 品牌slogan

别再用 Redis List 实现消息队列了,Stream 专为队列而生

CRMEB

ZStack 与龙蜥操作系统完成兼容性认证,共同打造安全可信的云+OS技术生态

OpenAnolis小助手

云计算 开源 操作系统 云平台

群晖 NAS 安装的 Docker MySQL 数据库没有办法通过局域网连接

HoneyMoose

编程和英语,数学到底什么关系

北极的大企鹅

思维转换 编程思想

Docker原理——数据包怎么发出去

kof11321

容器 原理 容器网络方案

解读计算机视觉的2020 :自监督学习、数据跨域分析成研究热点,疫情相关应用落地加快_AI&大模型_沙宇洋_InfoQ精选文章