QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

基于稠密运动场的高清说话人脸视频生成 | 论文解读

  • 2021-03-19
  • 本文字数:1375 字

    阅读完需:约 5 分钟

基于稠密运动场的高清说话人脸视频生成 | 论文解读

1.概述


输入一张任意的人脸图像和一段任意的语音片段,说话人脸视频合成技术能够合成与输入语音相匹配的音视频同步、表情自然的高清晰说话人脸视频。


目前的说话人脸视频合成技术仍存在很多挑战,其中合成视频的分辨率一直受限于 256x256 大小。有两个主要的原因:第一个原因是目前没有合适的数据集可以用来合成高清说话人脸视频,视频的分辨率一直受到限制。第二个原因是之前的方法使用人脸关键点(landmark)来引导人脸图像的合成,但是人脸关键点容易受到噪声的干扰,而且对于高分辨率图像来说,人脸关键点太稀疏了,提供的人脸表情信息相对较少。


针对以上问题,网易伏羲虚拟人组收集一个高清音视频数据集,由 1080P 或 720P 的说话人脸视频组成,比之前的数据集更加清晰,并包含有更多的人物 ID。其次,论文利用三维形变人脸(3DMM)中的人脸先验信息,生成表情更加丰富的稠密运动场,并使用稠密运动场作为输入引导人脸图像生成,提高了人脸视频合成的分辨率。该工作已被 CVPR2021 接收。


2.方案概述


本文的算法框架如图 1 所示,文章利用三维形变人脸模型将整个算法框架分为动画参数合成模块(图一中的紫色部分 audio-to-animation)和人脸视频合成模块(图一中的黄色部分 animation-to-video)两个部分。动画参数模块的主体为一个特定风格动画生成器(style-specific animation generator),该生成器的输入为语音和人脸的特征,其中人脸的特征为预训练的 VGGface 提取到的人脸的特征。输出为人脸动画参数,包括嘴唇动画参数、眉眼动画参数以及头部运动动画参数。


图1:文章的算法框架


人脸视频合成模块的主体包括近似稠密运动场(appro dense flow)的合成和基于稠密运动场的视频生成器(flow-guided video generator)两个模块,因为利用 3dmm 只能保证内脸的运动场是准确的,脸之外(包括头发、上半身和背景)的运动场是不知道的,文章近似的认为在人脸说话的过程中,头发是跟随着其最近的脸的边缘一起运动,上半身是跟随着脸的整体一起运动,从而通过插值得到最终的近似稠密运动场。具体的计算过程为:首先从输入的人脸图像中计算人脸形状参数,人脸形状参数和动画参数模块合成的表情参数一起输入到 3DMM 中,计算得到近似稠密运动场。


基于稠密运动场的视频生成器的主体为一个深度神经网络,该生成器的输入为输入人脸图像和近似稠密运动场,输出为合成的人脸视频帧。


3.实验结果


图2:论文的实验结果


图 2 展示了论文的实验结果,图 2 中最左侧为输入的驱动语音,依次向右分别为输入的人脸图像以及算法生成的视频序列。同时文章也做了相关的定性和定量实验,在定量实验比较中,文章使用 PSNR、SSIM 和 CPBD 作为定量评价指标,实验结果如表 1 所示。文章提出的方法在定量比较中比其他对比方法要好。同时文章也通过主观测试做了定性评价,实验结果如表 2 所示。结果表明在主观测试中,该论文提出的方法得到了更高的分数。


表1:论文中的定量比较结果


表2:论文中的定性比较结果


4.总结和展望


本文首先收集了一个大的非实验室环境的高清音视频数据集,该数据集比之前的非实验室环境数据集有更高的视频分辨率,比之前的实验室环境数据集包含有更多的人物 ID 和句子。本文同时也提出了一种基于稠密运动场的高清人脸合成框架,该框架包含有一个特定风格动画生成器和一个基于稠密运动场的视频生成器, 动画生成器可以生成具有特定说话风格的动画参数。视频生成器可以将动画参数进一步转化成高清说话人脸。同时本文的方法仍旧存在很多局限性,如头部的运动不够大等,未来这些局限也会被不断地改进。

2021-03-19 11:592041

评论 1 条评论

发布
用户头像
你好请问有论文和代码链接吗
2021-03-27 13:40
回复
没有更多了
发现更多内容

1688店铺所有商品列表接口全攻略

tbapi

1688API 1688店铺所有商品接口 1688店铺商品采集

AI口语陪练APP的核心功能

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

智能车间管理系统(源码+文档+讲解+演示)

深圳亥时科技

《Operating System Concepts》阅读笔记:p359-p388

codists

操作系统

显存也能叠叠乐,双 Intel Arc A770 显卡低成本部署 DeepSeek R1 32B 蒸馏模型体验

E科讯

魔搭×通义灵码:0代码基础、0门槛在线编程做应用

阿里云云效

阿里云 云原生 通义灵码

数据线良率总上不去?MES系统教你3招把不良率砍半!

万界星空科技

数字化 mes 万界星空科技 制造业工厂 数据线工厂

百度百舸万卡集群的训练稳定性系统设计和实践

百度Geek说

集群 AI 搜索引擎

运维人的福音!嘉为蓝鲸OpsPilot V3.2 联网检索功能,让问题解决快人一步!

嘉为蓝鲸

智能运维 产品发布 嘉为蓝鲸 #WeOps

数据安全,信息安全解决方案,信息安全实施方案

金陵老街

信息安全 数据安全

特斯拉、宇树、Figure AI 核心供应链企业梳理与商业化壁垒,「汇丰银行」人形机器人研报解读

机器人头条

科技 大模型 人形机器人 具身智能

智慧环保系统(源码+文档+讲解+演示)

深圳亥时科技

AI口语机器人的功能规划

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

这款流行 AI 工具被盗用挖取加密货币,这些隐患你需要知道

阿里巴巴云原生

阿里云 云原生 Higress

每月仅能使用80小时,ToDesk再度降低免费用户使用时长

科技热闻

如何开始搭建一个交易所软件?从规划到上线的完整指南

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 交易所开发代币开发

商家域稳定性建设之原理探索|得物技术

得物技术

Qualcomm IPQ5322 WiFi7 : Dual QCN9274 Card Support & AP Controller Solution Analysis

wifi6-yiyi

WiFi7

垂域大模型时代 | 专业数据铸就行业智能底座

数据堂

人工智能 金融 数据集 大模型 垂域模型

从协作视角看银行 SRE 转型:与虚拟 IT 组织的创新联动

嘉为蓝鲸

AIOPS SRE 银行运维

无人值守收入核算,无需下班的“AI收入会计”

用友智能财务

AI 数字化 财务 会计

魔搭×通义灵码:0代码基础、0门槛在线编程做应用

阿里巴巴云原生

阿里云 云原生 通义灵码

DApp用户激励机制设计:从代币经济到行为心理学的深度解构

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

什么是有限元分析技术?仿真软件正逐步成为新型科技

思茂信息

仿真 abaqus 有限元分析

AI Day引爆测试圈:你的测试工具该升级了,手工测试到AI智能测试

测试人

人工智能

DeepSeek黑科技加持 嘉为蓝鲸WeOps V5.0让运维预见未来

嘉为蓝鲸

智能运维 产品发布 嘉为蓝鲸 #WeOps

故障隔离与防护架构设计

FunTester

Cloud Ace 宣布成为 Langfuse 亚太地区首个代理商,提供 LLM 全链路方案

Cloud Ace 云一

LLM LLMOps 生成式 AI 应用 Langfuse

突破续航瓶颈:数字样机技术引领新能源汽车复合制动新方向

DevOps和数字孪生

DDNS和内网穿透服务实名监管趋严,贝锐花生壳成唯一可靠选择!

科技热闻

试验协同管理平台(源码+文档+讲解+演示)

深圳亥时科技

基于稠密运动场的高清说话人脸视频生成 | 论文解读_AI&大模型_网易伏羲_InfoQ精选文章