基于稠密运动场的高清说话人脸视频生成 | 论文解读_AI&大模型_网易伏羲

限时领｜《AI 百问百答》专栏课+实体书（包邮）！了解详情 



 写点什么

1.概述

输入一张任意的人脸图像和一段任意的语音片段，说话人脸视频合成技术能够合成与输入语音相匹配的音视频同步、表情自然的高清晰说话人脸视频。

目前的说话人脸视频合成技术仍存在很多挑战，其中合成视频的分辨率一直受限于 256x256 大小。有两个主要的原因：第一个原因是目前没有合适的数据集可以用来合成高清说话人脸视频，视频的分辨率一直受到限制。第二个原因是之前的方法使用人脸关键点（landmark）来引导人脸图像的合成，但是人脸关键点容易受到噪声的干扰，而且对于高分辨率图像来说，人脸关键点太稀疏了，提供的人脸表情信息相对较少。

针对以上问题，网易伏羲虚拟人组收集一个高清音视频数据集，由 1080P 或 720P 的说话人脸视频组成，比之前的数据集更加清晰，并包含有更多的人物 ID。其次，论文利用三维形变人脸（3DMM）中的人脸先验信息，生成表情更加丰富的稠密运动场，并使用稠密运动场作为输入引导人脸图像生成，提高了人脸视频合成的分辨率。该工作已被 CVPR2021 接收。

2.方案概述

本文的算法框架如图 1 所示，文章利用三维形变人脸模型将整个算法框架分为动画参数合成模块（图一中的紫色部分 audio-to-animation）和人脸视频合成模块（图一中的黄色部分 animation-to-video）两个部分。动画参数模块的主体为一个特定风格动画生成器（style-specific animation generator），该生成器的输入为语音和人脸的特征，其中人脸的特征为预训练的 VGGface 提取到的人脸的特征。输出为人脸动画参数，包括嘴唇动画参数、眉眼动画参数以及头部运动动画参数。

图1：文章的算法框架

人脸视频合成模块的主体包括近似稠密运动场（appro dense flow）的合成和基于稠密运动场的视频生成器（flow-guided video generator）两个模块，因为利用 3dmm 只能保证内脸的运动场是准确的，脸之外（包括头发、上半身和背景）的运动场是不知道的，文章近似的认为在人脸说话的过程中，头发是跟随着其最近的脸的边缘一起运动，上半身是跟随着脸的整体一起运动，从而通过插值得到最终的近似稠密运动场。具体的计算过程为：首先从输入的人脸图像中计算人脸形状参数，人脸形状参数和动画参数模块合成的表情参数一起输入到 3DMM 中，计算得到近似稠密运动场。

基于稠密运动场的视频生成器的主体为一个深度神经网络，该生成器的输入为输入人脸图像和近似稠密运动场，输出为合成的人脸视频帧。

3.实验结果

图2：论文的实验结果

图 2 展示了论文的实验结果，图 2 中最左侧为输入的驱动语音，依次向右分别为输入的人脸图像以及算法生成的视频序列。同时文章也做了相关的定性和定量实验，在定量实验比较中，文章使用 PSNR、SSIM 和 CPBD 作为定量评价指标，实验结果如表 1 所示。文章提出的方法在定量比较中比其他对比方法要好。同时文章也通过主观测试做了定性评价，实验结果如表 2 所示。结果表明在主观测试中，该论文提出的方法得到了更高的分数。

表1：论文中的定量比较结果

表2：论文中的定性比较结果

4.总结和展望

本文首先收集了一个大的非实验室环境的高清音视频数据集，该数据集比之前的非实验室环境数据集有更高的视频分辨率，比之前的实验室环境数据集包含有更多的人物 ID 和句子。本文同时也提出了一种基于稠密运动场的高清人脸合成框架，该框架包含有一个特定风格动画生成器和一个基于稠密运动场的视频生成器, 动画生成器可以生成具有特定说话风格的动画参数。视频生成器可以将动画参数进一步转化成高清说话人脸。同时本文的方法仍旧存在很多局限性，如头部的运动不够大等，未来这些局限也会被不断地改进。

评论 1 条评论

发布

zero

你好请问有论文和代码链接吗

2021-03-27 13:40

 0 回复

没有更多了

创作场景

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述

2.方案概述

3.实验结果

4.总结和展望

评论 1 条评论

架构师训练营 4 期第12周

Go Channel源码分析

数据仓库设计

从Nacos客户端视角来分析配置中心原理

央行数字人民币“可控匿名”会侵犯隐私吗？最新解读来了

用户故事拆分速查手册(译)

OpenCV 写图像也有讲究，取经之路第 5 天

为何数字人民币要采用“小额匿名、大额可溯”的设计？

hive数据倾斜解决办法

Docker 教程（三）：Docker 命令

2.3 Go语言从入门到精通：数据类型

《青春有你3》的子弹时间舞台，凝筑了自由视角技术进化史

Vue3源码 | createApp都干了什么？

银行业只是开始，60个可以被区块链改变的行业

2021十大区块链领域即将起飞

产品训练营第八章作业

IO 模型

一文搞定Diff算法

Spark详细剖析

工作多年后我更明白了UT的重要性

传统IT部门为什么越来越不受欢迎？

找到适合自己的睡眠方案

产品0期-第九周

大数据中流量分析常见分类

科技强国的使命召唤中，百度AI埋下三根未来“引线”

探索 Snabbdom 模块系统原理

Java8中的 Stream 那么彪悍，你知道它的原理是什么吗？

产品训练营第八周作业——用户路径地图

谈兼职创业

控制台的安装与使用 | 联盟链开发（二）

线上问题的一点反思

创作场景

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述

2.方案概述

3.实验结果

4.总结和展望

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载