谷歌人工智能的研究人员发布了两个新的度量标准来衡量由深度学习网络生成的音频和视频的质量,分别是 Fréchet Audio Distance (FAD)和 Fréchet Video Distance (FVD)。这些指标已被证明与人工质量评估有很高的相关性。
在最近的一篇博客文章中,软件工程师 Kevin Kilgour 和 Thomas Unterthiner 描述了他们的团队们所做的工作,该研究建立在以前评估由神经网络生成的图像质量的研究基础上。这些团队展示了他们的新指标如何分别检测添加到声音或视频中的噪音,以及将他们的评估指标与人工对声音或视频质量评估进行跟踪。FAD 通过对一系列失真音频样本的排序进行评价,其选择与人工判别选择的相关性为 0.39。FVD 通过对深度学习模型生成的视频进行排序进行类似的评估。根据使用的生成标准的不同,它与人工判别的一致性在 60% 到 80% 之间。
深度学习模型的成功在一定程度上是由 ImageNet 等大型高质量数据集来推动的。这些数据集还提供了可用于评估模型的“正确答案”。近年来,深度学习在图像生成中的广泛应用带来了新的问题:如何评估模型输出的质量呢?由于通过这些神经网络生成的图像或者数据没有“正确答案”,因此无法应用传统的信噪比或均方误差等常见指标来评估质量。
由于目标是生成对人类来说看起来或听起来是否真实的输出,所以数据可以由人工判别进行评分,但这既不可能规模化应用,评价的结果也不一定客观。最开始的度量标准是由 GAN 模型的发明者提出的 Inception score(IS)。这个度量标准是通过将一个预先训练好的初始图像分类器应用于图像并计算结果的统计数据来进行计算的。这个度量标准与用于训练生成模型的目标密切相关,并被证明与人工对质量的判别结果密切相关。
然而,IS 度量还有一些缺点。尤其是它对所使用的底层初始模型中的更改非常敏感。澳大利亚约翰开普勒林茨大学 LIT AI 实验室的 Unterthiner 以及其他成员改进了 Fréchet Inception Distance (FID)方法。FID 没有使用 Inception 模型的分类输出,而是使用 Inception 模型的一个隐含层来计算输入图像的嵌入。嵌入是由一组生成图片以及一组真实世界的图片(基准)来计算的。所得到的数据集被视为由多元高斯分布产生的数据,并使用 FID 对两种分布进行比较。与 IS 相比,FID 的一个优点是,当图像中加入噪声时,可以将噪声变平滑甚至消除。
谷歌的新度量方法扩展了为生成的数据计算嵌入的思想,并将统计数据与基准数据进行比较。对于 FAD,团队使用 VGGish 计算嵌入,对于 FVD,使用的是 Inflated 3D Convnet。为了验证其度量方法的有效性,研究人员计算了通过在基准数据中添加噪声而产生的数据集的度量值。预期分数的确会随着噪音的增加而增加。该团队还将他们的度量结果与人工判别进行了比较,发现了该度量方法与人工判别之间的相关性,而且这一新度量方法与人工判别的一致性比其他常用度量方法更强。
用于计算 FAD 和 FVD 的 Python 代码和 TensorFlow 代码目前已经开源至 GitHub。
原文链接:
Google Introduces New Metrics for AI-Generated Audio and Video Quality
公众号推荐:
跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。
评论