限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

基于稠密运动场的高清说话人脸视频生成 | 论文解读

  • 2021-03-19
  • 本文字数:1375 字

    阅读完需:约 5 分钟

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述


输入一张任意的人脸图像和一段任意的语音片段,说话人脸视频合成技术能够合成与输入语音相匹配的音视频同步、表情自然的高清晰说话人脸视频。


目前的说话人脸视频合成技术仍存在很多挑战,其中合成视频的分辨率一直受限于 256x256 大小。有两个主要的原因:第一个原因是目前没有合适的数据集可以用来合成高清说话人脸视频,视频的分辨率一直受到限制。第二个原因是之前的方法使用人脸关键点(landmark)来引导人脸图像的合成,但是人脸关键点容易受到噪声的干扰,而且对于高分辨率图像来说,人脸关键点太稀疏了,提供的人脸表情信息相对较少。


针对以上问题,网易伏羲虚拟人组收集一个高清音视频数据集,由 1080P 或 720P 的说话人脸视频组成,比之前的数据集更加清晰,并包含有更多的人物 ID。其次,论文利用三维形变人脸(3DMM)中的人脸先验信息,生成表情更加丰富的稠密运动场,并使用稠密运动场作为输入引导人脸图像生成,提高了人脸视频合成的分辨率。该工作已被 CVPR2021 接收。


2.方案概述


本文的算法框架如图 1 所示,文章利用三维形变人脸模型将整个算法框架分为动画参数合成模块(图一中的紫色部分 audio-to-animation)和人脸视频合成模块(图一中的黄色部分 animation-to-video)两个部分。动画参数模块的主体为一个特定风格动画生成器(style-specific animation generator),该生成器的输入为语音和人脸的特征,其中人脸的特征为预训练的 VGGface 提取到的人脸的特征。输出为人脸动画参数,包括嘴唇动画参数、眉眼动画参数以及头部运动动画参数。


图1:文章的算法框架


人脸视频合成模块的主体包括近似稠密运动场(appro dense flow)的合成和基于稠密运动场的视频生成器(flow-guided video generator)两个模块,因为利用 3dmm 只能保证内脸的运动场是准确的,脸之外(包括头发、上半身和背景)的运动场是不知道的,文章近似的认为在人脸说话的过程中,头发是跟随着其最近的脸的边缘一起运动,上半身是跟随着脸的整体一起运动,从而通过插值得到最终的近似稠密运动场。具体的计算过程为:首先从输入的人脸图像中计算人脸形状参数,人脸形状参数和动画参数模块合成的表情参数一起输入到 3DMM 中,计算得到近似稠密运动场。


基于稠密运动场的视频生成器的主体为一个深度神经网络,该生成器的输入为输入人脸图像和近似稠密运动场,输出为合成的人脸视频帧。


3.实验结果


图2:论文的实验结果


图 2 展示了论文的实验结果,图 2 中最左侧为输入的驱动语音,依次向右分别为输入的人脸图像以及算法生成的视频序列。同时文章也做了相关的定性和定量实验,在定量实验比较中,文章使用 PSNR、SSIM 和 CPBD 作为定量评价指标,实验结果如表 1 所示。文章提出的方法在定量比较中比其他对比方法要好。同时文章也通过主观测试做了定性评价,实验结果如表 2 所示。结果表明在主观测试中,该论文提出的方法得到了更高的分数。


表1:论文中的定量比较结果


表2:论文中的定性比较结果


4.总结和展望


本文首先收集了一个大的非实验室环境的高清音视频数据集,该数据集比之前的非实验室环境数据集有更高的视频分辨率,比之前的实验室环境数据集包含有更多的人物 ID 和句子。本文同时也提出了一种基于稠密运动场的高清人脸合成框架,该框架包含有一个特定风格动画生成器和一个基于稠密运动场的视频生成器, 动画生成器可以生成具有特定说话风格的动画参数。视频生成器可以将动画参数进一步转化成高清说话人脸。同时本文的方法仍旧存在很多局限性,如头部的运动不够大等,未来这些局限也会被不断地改进。

2021-03-19 11:592121

评论 1 条评论

发布
用户头像
你好请问有论文和代码链接吗
2021-03-27 13:40
回复
没有更多了
发现更多内容

架构师训练营 4 期 第12周

引花眠

架构师训练营 4 期

Go Channel源码分析

非晓为骁

源码分析 channel Go 语言

数据仓库设计

大数据技术指南

大数据 28天写作 3月日更

从Nacos客户端视角来分析配置中心原理

麦洛

nacos SpringCloud Alibaba 动态配置

央行数字人民币“可控匿名”会侵犯隐私吗?最新解读来了

CECBC

数字货币

用户故事拆分速查手册(译)

Bruce Talk

敏捷 译文 Agile User Story

OpenCV 写图像也有讲究,取经之路第 5 天

梦想橡皮擦

28天写作 3月日更

为何数字人民币要采用“小额匿名、大额可溯”的设计?

CECBC

数字货币

hive数据倾斜解决办法

五分钟学大数据

大数据 hive 28天写作 3月日更

Docker 教程(三):Docker 命令

看山

Docker

2.3 Go语言从入门到精通:数据类型

xcbeyond

3月日更 Go 语言

《青春有你3》的子弹时间舞台,凝筑了自由视角技术进化史

脑极体

Vue3源码 | createApp都干了什么?

梁龙先森

源码分析 大前端 Vue3

银行业只是开始,60个可以被区块链改变的行业

CECBC

数字技术

2021十大区块链领域即将起飞

CECBC

区块链 投资

产品训练营第八章作业

Arnold

IO 模型

无心

Netty

一文搞定Diff算法

执鸢者

Vue 大前端 Diff

Spark详细剖析

五分钟学大数据

大数据 spark 28天写作 3月日更

工作多年后我更明白了UT的重要性

好好学习,天天向上

传统IT部门为什么越来越不受欢迎?

boshi

数字化转型 IT职场 七日更

找到适合自己的睡眠方案

石云升

生活方式 28天写作 睡眠 3月日更

产品0期-第九周

Jxin

大数据中流量分析常见分类

大数据技术指南

大数据 28天写作 3月日更

科技强国的使命召唤中,百度AI埋下三根未来“引线”

脑极体

探索 Snabbdom 模块系统原理

Geek_z9ygea

JavaScript Vue Web Vue 3 Snabbdom

Java8中的 Stream 那么彪悍,你知道它的原理是什么吗?

Java小咖秀

Java 面试 stream java8 开发

产品训练营第八周作业——用户路径地图

innovator琳

用户研究 用户地图 用户数据 用户模型

谈兼职创业

Ryan Zheng

控制台的安装与使用 | 联盟链开发(二)

李大狗

联盟链 FISCO BCOS 狗哥

线上问题的一点反思

风翱

复盘 3月日更 线上问题

基于稠密运动场的高清说话人脸视频生成 | 论文解读_AI&大模型_网易伏羲_InfoQ精选文章