写点什么

Deepfake 盛行背后:合成数据到底有什么用?

  • 2019-05-29
  • 本文字数:3778 字

    阅读完需:约 12 分钟

Deepfake盛行背后:合成数据到底有什么用?

我们曾在本月 4 日发布过《那些竞相将 Deepfake 商业化的 AI 初创公司》, 相信读者们已经通过这篇文章认识到了 Deepfake 就是一把剑,用好了就是造福社会,没用好就会让全社会陷入失控,引起公众恐慌。由于 Deepfake 关系到合成数据,这涉及到合成数据到底有什么用途,为了更好理解合成数据的方方面面,我们翻译并分享了 Astasia Myers 的文章


在即将召开的 CVPR 会议上,我们认为,强调计算机视觉与合成数据的新趋势,应该会很有用。合成数据(synthetic data)是人工制造的信息,而不是由实际事件生成的信息。合成数据并不局限于视觉数据,还存在于语音、实体和传感器(如光学雷达、雷达和 GPS 等)中。我们将在本文阐述合成数据的价值,并对 45 种产品进行了分类。


AI 前线注:CVPR,英文全称 Conference on Computer Vision and Pattern Recognition,中文全称是国际计算机视觉与模式识别会议。这个会议是由 IEEE 主办的一年一度的全球学术性顶级会议,会议的主要内容是计算机视觉与模式识别技术,每年 CVPR 都会有一个固定的研讨主题。会议一般在每年六月举行,大部分情况下会议都在美国西部地区举办,也会在美国中部和东部地区之间循环举办。


随着 TensorFlow 和 PyTorch 等现成的训练框架的发展,构建机器学习模型比以往任何时候都要容易得多。然而不幸的是,数据仍然是机器学习的“冷启动”问题。通常,公司无法在给定的时间范围内获得足够的数据来构建高准确度的模型。此外,像 Google 这样的大公司拥有大量难以突破的数据护城河。今天,正在捕获数据的公司正在以手工的方式标记数据,这可能是缓慢的、昂贵的和低质的方式。如果使用合成数据的话,就可以帮助公司绕过这些限制,使数据民主化。


AI 前线注:数据民主化是指将政府、企业、机构等所拥有的各类公共数据推上互联网,允许任何人访问和下载。公民有权使用他们自己认为合适的数据,自己选择帮忙的专家和应用,而且只在任务需要帮手时。也就是说,公民拥有数据的知情权、发言权和决策权。


合成数据有诸多好处:


  1. 可以减少对生成和捕获数据的依赖。

  2. 若公司选择自己生成合成数据,则最大限度减少对第三方数据源的需求。

  3. 可以做到比手工标记数据更便宜、更快速。

  4. 可以生成难以在现实世界捕获的数据(如水下或军事冲突区的视觉内容)。

  5. 可以生成在自然中不常发生但对训练至关重要的数据(如边缘情况)。

  6. 可以生成大量数据。

  7. 可以提供完美标记的数据。

  8. 可以支持更快的标记迭代。

  9. 可以减少隐私问题。


本文主要关注视觉方面的合成数据,主要有两种形式:


1)照片级真实感数据;


2)以编程方式创建的数据。


照片级真实感数据是由艺术家创作的,目的是尽可能看起来像现实的事物。生成照片级真实感数据的过程,要比以编程方式创建的数据还要长。


可以使用 Unreal、Blender 和 Unity 等游戏引擎以编程方式来创建合成数据。然后,像 Houdini 这样的程序系统用来加速资产的创建。下一个团队可以使用一些技术,如使用生成式对抗网络(GAN)进行领域自适应,或进行域随机化以增加数据的排列。


领域自适应是使用相关领域中的标记数据集(源)对未标记数据集(目标)进行分类的任务。它允许团队获取低质的合成数据和真实数据,从而使合成数据更好。


AI 前线注:领域自适应,英文 Domain adaption,是迁移学习中很重要的一部分内容,目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对源域 (source domain) 训练的目标函数,就可以迁移到 target domain 上,提高目标域 (target domain) 上的正确率。


域随机化也有助于减少现实差距。根据 Nvidia 的论文,“域随机化通过以非真实感的方式,随机干扰环境,有意放弃照片级的真实感,迫使网络学会专注于图像的基本特征。”对数据的调整,可以包括图像场景、照明位置和强度、纹理、比例和位置。这种算法不是在一个模拟数据集上来训练一个模型,而是以团队的方式随机化模拟器,将模型暴露于各种各样的排列数据(如下图所示)。由于门槛较低,这种技术很快就成为最流行的技术。


AI 前线注:Nvidia 论文见《使用合成数据训练深度网络:通过域随机化弥合现实差距》(《Training Deep Networks with Synthetic Data:Bridging the Reality Gap by Domain Randomization》) https://arxiv.org/pdf/1804.06516.pdf


来源:《将深度神经网络从模拟转移到现实世界的域随机化》(《Domain randomization for transferring deep neural networks from simulation to the real world.》),Tobin、Joshua 等著。2017 IEEE/RSJ 国际智能机器人与系统会议(IROS)(2017):23-30


域随机化是一个子类,称为引导域随机化。该研究领域侧重于自动创建随机化,而不是手工设计它们,这可能是既繁琐又乏味的过程。以编程方式创建合成数据的能力进一步加快了价值实现的速度。


公司可以选择使用提供合成数据的第三方厂商,或者建立自己的内部团队。我们知道,很难找到并雇佣那些拥有技术艺术、游戏开发和机器学习专业知识的人才。当团队决定利用合成数据时,我们听说,他们将合成数据和实际数据混合在一起用于训练。通常这一比例是 80%~90% 的合成比例,10%~20% 的真实比例。


学术研究正在致力于创建能够代表 100% 训练数据的合成数据的技术,并创建于实际数据训练模型具有相同准确度水平的模型。目前,跨域应用程序是合成数据的亮点。例如,如果你经营一家自动驾驶汽车公司,制造的汽车将在旧金山和东京行驶,你就需要来自这两个地点的训练数据。也许你没有东京数据的权限。但如果你只根据旧金山的数据进行训练,然后在东京驾驶汽车,那么它的表现将比你用合成的东京数据以及真实的旧金山训练的数据更槽糕。


目前大多数合成数据都存在“现实差距”,也就是说看起来不太真实。反过来,应用于域训练的合成数据很少能媲美域中实际数据的表现。在一个领域内,合成数据可能会受到挑战,因为它通常需要包含物理行为,如重力、惯性等。要想正确地反映出物理原理很难,但游戏引擎正在进步。


Berkeley、OpenAI 和 Nvidia 的先进学术研究,推动了仅使用 100% 合成数据生成高正确度模型的能力。例如,OpenAI 的一篇论文,使用域随机化来构建一个数据生成管道来合成对象。由 100% 合成数据生成的机器人抓取模型,在抓取以前从未见过的真实物体时,获得了 90% 以上的成功率。


AI 前线注:OpenAI 的论文见:《用于机器人抓取的域随机化和模型生成》(《Domain Randomization and Generative Models for Robotic Grasping》) https://arxiv.org/pdf/1710.06425.pdf


即使将不同类型的合成数据混合在一起进行训练,也会产生积极的影响。Nvidia 的一篇论文发现,使用混合域随机化和照片级真实感数据生成一个物体姿态估计模型,该模型能够与由真实和合成数据组合进行训练的最先进的网络进行竞争。我们还没有见过有哪家公司能够成功地使用 100% 合成数据来构建在生产中运行的高准确度的模型。


AI 前线注:Nvidia 论文见《用于抓取家居物品的语义机器人抓取的深度物体姿态估计算法》(《Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects》)https://arxiv.org/pdf/1809.10790.pdf


合成数据的用例范围很广。对于计算机视觉应用来说,合成数据额数据的最常见用例是自主系统(如视频输出、机器人和无人机)、农业科技、房地产、视频监控、中枢模式发生器、零售业和国防。由于合成实体数据可以删除姓名、电子邮件、社会安全号码等信息,但仍然能够反映出基础数据集,因此受到了隐私问题的推动。这有助于数据科学家在不访问敏感信息的情况下进行实验。我们已经看到合成语音数据在媒体制作的应用案例。


AI 前线注:中枢模式发生器 Central pattern generators (CPG) 是一种不需要传感器反馈就能产生节律模式输出的神经网络。研究表明,即便缺少运动和传感器反馈,CPG 仍能产生有节律的输出并形成"节律运动模式"。


我们将 45 种合成数据解决方案分为六类:


  1. 工具

  2. 传感器(相机、光学雷达、雷达和 GPS)

  3. 实体

  4. 语音

  5. 取证

  6. 利用合成数据的产品 / 虚拟形象


下图的展示并不全面,但突出了该领域中更为知名的一些产品。



上图的展示,包括利用合成数据的产品,如媒体制作。在过去的几个月里,出现了一波“Deepfake”热潮,即一种视频或音频,它们呈现的都是一些实际上并没有发生的事情。例如,Lyrebird 可以复制美国总统特朗普的声音。音乐游戏 Synthesia 最近发布了一段大卫·贝克汉姆抗击疟疾的视频,其中就是利用了机器学习来生成内容。现在网上还出现了伊隆·马斯克、萨尔瓦多·达利和巴拉克·奥巴马的 Deepfake。


AI 前线注:萨尔瓦多·达利(1904 年 5 月 11 日~1989 年 1 月 23 日),西班牙加泰罗尼亚画家,因其超现实主义作品而闻名,与毕加索、马蒂斯一同被认为是 20 世纪最有代表名的三位画家。


Deepfake 是一个日益引起关注的问题,因为它们往往与现实几乎无法区分。McAfee、Symantec 和学术界正在研究用于检测 Deepfake 的取证技术。Synmantec 在 Black Hat 2018 发表的一篇论文,描述了如何辨认出基于 Google FaceNet 的虚假视频。奥尔巴尼大学推出了一种软件,可以通过分析模拟人脸眨眼的频率,来识别出是否 Deepfake 视频。我们相信在未来,为了避免混淆,合成的音频和视频内容将会被添加水印。


合成数据是机器学习和数据科学领域的一个上升趋势。合成数据存在于语音、传感器和实体数据之间。与数据标记技术相比,合成数据带来了许多好处,包括速度、成本、规模和多样性。有一些厂商提供合成数据即服务(Synthetic data as a service),其他厂商则利用它来改进媒体制作。随着 Deepfake 的出现,人们需要对真实内容和合成内容进行验证。这一领域刚刚起步,但发展迅速。



2019-05-29 08:006332
用户头像

发布了 536 篇内容, 共 275.6 次阅读, 收获喜欢 1561 次。

关注

评论

发布
暂无评论
发现更多内容

如何使用华为NEXT模拟器进行应用开发

彭康佳

android 华为 鸿蒙

五月答谢 - 清凉礼包大派送,先到先得

Laval小助手

浅析Spring中Async注解底层异步线程池原理

得物技术

Java spring 企业号2024年6月PK榜

开源数据库生态遇新变数,天翼云TeleDB提供企业数据管理更优解!

天翼云开发者社区

数据库 云计算 存储

以 ZGC 为例,谈一谈 JVM 是如何实现 Reference 语义的

bin的技术小屋

ZGC JVM GC

五连冠!天翼云稳居中国专属云服务市场榜首!

天翼云开发者社区

云计算 云服务 IDC

性能分析: 快速定位SQL问题

EquatorCoco

数据库 sql 性能优化

大厂扎堆入驻鸿蒙,中小应用厂商怎么跟?

ToB行业头条

孤勇者80岁老教授40年打造国产数据库第一股,达梦开盘暴涨260%

NineData

数据库迁移 国产数据库 武汉达梦数据库 达梦上市 云数据库技术

携手知名律所,合合信息旗下名片全能王打造数字化名片“新范式”

合合技术团队

合合信息 数字名片 名片全能王

《ERC-875:开启区块链资产交易新征程》

dappweb

defi 元宇宙开发 区块链开发

实现全国算力互联互通,我们是认真的!

天翼云开发者社区

云计算 算力

云消息队列 ApsaraMQ 成本治理实践(文末附好礼)

阿里巴巴云原生

阿里云 云原生 ApsaraMQ

市值风云APP装机数百万,借助NineData实现数据高效流通

NineData

数据迁移 数据管理 迁移工具 NineData 市值风云

鸿蒙系统开发如何实现跨平台功能?

FN0

鸿蒙 跨平台 HarmonyOS 鸿蒙卡片

怎么购买GPT4o?GPT4o买不了怎么办?GPT4o订阅银行卡教程

蓉蓉

openai gpt4o

闲鱼商品详情API接口:获取与应用实战指南

Noah

首期“软件企业 AI 开发提效实战营”成功举办

阿里巴巴云原生

人工智能 阿里云 云原生

selenium滑块解锁实现的研究

霍格沃兹测试开发学社

从打点平台谈打点治理

百度Geek说

数据质量 企业号 6 月 PK 榜 打点平台 打点治理

WiFi 7 Technology: Market Growth, Opportunities, and Challenges

wallyslilly

ipq9574 IPQ5332

直播预约丨《指标体系建设实战》第三期:指标平台功能架构及落地实践

袋鼠云数栈

指标体系 数据指标 指标 指标平台 指标建设

用移动图形工作站做设计是种什么样的体验?

青椒云云电脑

图形工作站 移动图形工作站

从“数据孤岛”、Data Fabric(数据编织)谈逻辑数据平台

Aloudata

数据孤岛 数据虚拟化 Data Fabric 数据编织

疫情之后规模最大!武汉站Meetup,腾讯云与Elastic共绘ES在AI时代搜索技术新蓝图!

腾讯云大数据

ES

IM跨平台技术学习(十一):环信基于Electron打包Web IM桌面端的技术实践

JackJiang

网络编程 即时通讯 IM

数字先锋| SaaS服务“拎包入住”?央企数字化转型体验感拉满!

天翼云开发者社区

云计算 数字化转型 SaaS平台

首期“软件企业 AI 开发提效实战营”成功举办

阿里云云效

人工智能 阿里云 云原生

青椒云如何通过云桌面实现移动图形工作站

青椒云云电脑

图形工作站 移动图形工作站

移动图形工作站有哪些价格实惠的推荐?

青椒云云电脑

图形工作站 移动图形工作站

Deepfake盛行背后:合成数据到底有什么用?_AI&大模型_Astasia Myers_InfoQ精选文章