我们曾在本月 4 日发布过《那些竞相将 Deepfake 商业化的 AI 初创公司》，相信读者们已经通过这篇文章认识到了 Deepfake 就是一把剑，用好了就是造福社会，没用好就会让全社会陷入失控，引起公众恐慌。由于 Deepfake 关系到合成数据，这涉及到合成数据到底有什么用途，为了更好理解合成数据的方方面面，我们翻译并分享了 Astasia Myers 的文章。

在即将召开的 CVPR 会议上，我们认为，强调计算机视觉与合成数据的新趋势，应该会很有用。合成数据（synthetic data）是人工制造的信息，而不是由实际事件生成的信息。合成数据并不局限于视觉数据，还存在于语音、实体和传感器（如光学雷达、雷达和 GPS 等）中。我们将在本文阐述合成数据的价值，并对 45 种产品进行了分类。

AI 前线注：CVPR，英文全称 Conference on Computer Vision and Pattern Recognition，中文全称是国际计算机视觉与模式识别会议。这个会议是由 IEEE 主办的一年一度的全球学术性顶级会议，会议的主要内容是计算机视觉与模式识别技术，每年 CVPR 都会有一个固定的研讨主题。会议一般在每年六月举行，大部分情况下会议都在美国西部地区举办，也会在美国中部和东部地区之间循环举办。

随着 TensorFlow 和 PyTorch 等现成的训练框架的发展，构建机器学习模型比以往任何时候都要容易得多。然而不幸的是，数据仍然是机器学习的“冷启动”问题。通常，公司无法在给定的时间范围内获得足够的数据来构建高准确度的模型。此外，像 Google 这样的大公司拥有大量难以突破的数据护城河。今天，正在捕获数据的公司正在以手工的方式标记数据，这可能是缓慢的、昂贵的和低质的方式。如果使用合成数据的话，就可以帮助公司绕过这些限制，使数据民主化。

AI 前线注：数据民主化是指将政府、企业、机构等所拥有的各类公共数据推上互联网，允许任何人访问和下载。公民有权使用他们自己认为合适的数据，自己选择帮忙的专家和应用，而且只在任务需要帮手时。也就是说，公民拥有数据的知情权、发言权和决策权。

合成数据有诸多好处：

可以减少对生成和捕获数据的依赖。
若公司选择自己生成合成数据，则最大限度减少对第三方数据源的需求。
可以做到比手工标记数据更便宜、更快速。
可以生成难以在现实世界捕获的数据（如水下或军事冲突区的视觉内容）。
可以生成在自然中不常发生但对训练至关重要的数据（如边缘情况）。
可以生成大量数据。
可以提供完美标记的数据。
可以支持更快的标记迭代。
可以减少隐私问题。

本文主要关注视觉方面的合成数据，主要有两种形式：

1）照片级真实感数据；

2）以编程方式创建的数据。

照片级真实感数据是由艺术家创作的，目的是尽可能看起来像现实的事物。生成照片级真实感数据的过程，要比以编程方式创建的数据还要长。

可以使用 Unreal、Blender 和 Unity 等游戏引擎以编程方式来创建合成数据。然后，像 Houdini 这样的程序系统用来加速资产的创建。下一个团队可以使用一些技术，如使用生成式对抗网络（GAN）进行领域自适应，或进行域随机化以增加数据的排列。

领域自适应是使用相关领域中的标记数据集（源）对未标记数据集（目标）进行分类的任务。它允许团队获取低质的合成数据和真实数据，从而使合成数据更好。

AI 前线注：领域自适应，英文 Domain adaption，是迁移学习中很重要的一部分内容，目的是把分布不同的源域和目标域的数据，映射到一个特征空间中，使其在该空间中的距离尽可能近。于是在特征空间中对源域（source domain）训练的目标函数，就可以迁移到 target domain 上，提高目标域（target domain）上的正确率。

域随机化也有助于减少现实差距。根据 Nvidia 的论文，“域随机化通过以非真实感的方式，随机干扰环境，有意放弃照片级的真实感，迫使网络学会专注于图像的基本特征。”对数据的调整，可以包括图像场景、照明位置和强度、纹理、比例和位置。这种算法不是在一个模拟数据集上来训练一个模型，而是以团队的方式随机化模拟器，将模型暴露于各种各样的排列数据（如下图所示）。由于门槛较低，这种技术很快就成为最流行的技术。

AI 前线注：Nvidia 论文见《使用合成数据训练深度网络：通过域随机化弥合现实差距》（《Training Deep Networks with Synthetic Data:Bridging the Reality Gap by Domain Randomization》） https://arxiv.org/pdf/1804.06516.pdf

域随机化是一个子类，称为引导域随机化。该研究领域侧重于自动创建随机化，而不是手工设计它们，这可能是既繁琐又乏味的过程。以编程方式创建合成数据的能力进一步加快了价值实现的速度。

公司可以选择使用提供合成数据的第三方厂商，或者建立自己的内部团队。我们知道，很难找到并雇佣那些拥有技术艺术、游戏开发和机器学习专业知识的人才。当团队决定利用合成数据时，我们听说，他们将合成数据和实际数据混合在一起用于训练。通常这一比例是 80%~90% 的合成比例，10%~20% 的真实比例。

学术研究正在致力于创建能够代表 100% 训练数据的合成数据的技术，并创建于实际数据训练模型具有相同准确度水平的模型。目前，跨域应用程序是合成数据的亮点。例如，如果你经营一家自动驾驶汽车公司，制造的汽车将在旧金山和东京行驶，你就需要来自这两个地点的训练数据。也许你没有东京数据的权限。但如果你只根据旧金山的数据进行训练，然后在东京驾驶汽车，那么它的表现将比你用合成的东京数据以及真实的旧金山训练的数据更槽糕。

目前大多数合成数据都存在“现实差距”，也就是说看起来不太真实。反过来，应用于域训练的合成数据很少能媲美域中实际数据的表现。在一个领域内，合成数据可能会受到挑战，因为它通常需要包含物理行为，如重力、惯性等。要想正确地反映出物理原理很难，但游戏引擎正在进步。

Berkeley、OpenAI 和 Nvidia 的先进学术研究，推动了仅使用 100% 合成数据生成高正确度模型的能力。例如，OpenAI 的一篇论文，使用域随机化来构建一个数据生成管道来合成对象。由 100% 合成数据生成的机器人抓取模型，在抓取以前从未见过的真实物体时，获得了 90% 以上的成功率。

AI 前线注：OpenAI 的论文见：《用于机器人抓取的域随机化和模型生成》（《Domain Randomization and Generative Models for Robotic Grasping》） https://arxiv.org/pdf/1710.06425.pdf

即使将不同类型的合成数据混合在一起进行训练，也会产生积极的影响。Nvidia 的一篇论文发现，使用混合域随机化和照片级真实感数据生成一个物体姿态估计模型，该模型能够与由真实和合成数据组合进行训练的最先进的网络进行竞争。我们还没有见过有哪家公司能够成功地使用 100% 合成数据来构建在生产中运行的高准确度的模型。

AI 前线注：Nvidia 论文见《用于抓取家居物品的语义机器人抓取的深度物体姿态估计算法》（《Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects》）https://arxiv.org/pdf/1809.10790.pdf

合成数据的用例范围很广。对于计算机视觉应用来说，合成数据额数据的最常见用例是自主系统（如视频输出、机器人和无人机）、农业科技、房地产、视频监控、中枢模式发生器、零售业和国防。由于合成实体数据可以删除姓名、电子邮件、社会安全号码等信息，但仍然能够反映出基础数据集，因此受到了隐私问题的推动。这有助于数据科学家在不访问敏感信息的情况下进行实验。我们已经看到合成语音数据在媒体制作的应用案例。

AI 前线注：中枢模式发生器 Central pattern generators (CPG) 是一种不需要传感器反馈就能产生节律模式输出的神经网络。研究表明，即便缺少运动和传感器反馈，CPG 仍能产生有节律的输出并形成"节律运动模式"。

我们将 45 种合成数据解决方案分为六类：

工具
传感器（相机、光学雷达、雷达和 GPS）
实体
语音
取证
利用合成数据的产品 / 虚拟形象

下图的展示并不全面，但突出了该领域中更为知名的一些产品。

上图的展示，包括利用合成数据的产品，如媒体制作。在过去的几个月里，出现了一波“Deepfake”热潮，即一种视频或音频，它们呈现的都是一些实际上并没有发生的事情。例如，Lyrebird 可以复制美国总统特朗普的声音。音乐游戏 Synthesia 最近发布了一段大卫·贝克汉姆抗击疟疾的视频，其中就是利用了机器学习来生成内容。现在网上还出现了伊隆·马斯克、萨尔瓦多·达利和巴拉克·奥巴马的 Deepfake。

AI 前线注：萨尔瓦多·达利（1904 年 5 月 11 日~1989 年 1 月 23 日），西班牙加泰罗尼亚画家，因其超现实主义作品而闻名，与毕加索、马蒂斯一同被认为是 20 世纪最有代表名的三位画家。

Deepfake 是一个日益引起关注的问题，因为它们往往与现实几乎无法区分。McAfee、Symantec 和学术界正在研究用于检测 Deepfake 的取证技术。Synmantec 在 Black Hat 2018 发表的一篇论文，描述了如何辨认出基于 Google FaceNet 的虚假视频。奥尔巴尼大学推出了一种软件，可以通过分析模拟人脸眨眼的频率，来识别出是否 Deepfake 视频。我们相信在未来，为了避免混淆，合成的音频和视频内容将会被添加水印。

合成数据是机器学习和数据科学领域的一个上升趋势。合成数据存在于语音、传感器和实体数据之间。与数据标记技术相比，合成数据带来了许多好处，包括速度、成本、规模和多样性。有一些厂商提供合成数据即服务（Synthetic data as a service），其他厂商则利用它来改进媒体制作。随着 Deepfake 的出现，人们需要对真实内容和合成内容进行验证。这一领域刚刚起步，但发展迅速。

创作场景

Deepfake 盛行背后：合成数据到底有什么用？