限时!亚马逊云科技云从业者认证考试五折,未过免费补考!更有好礼相送! 了解详情
写点什么

15 秒音频即可“复制”原声!但 OpenAI 担心新语音模型被滥用而限制发行

  • 2024-04-02
    北京
  • 本文字数:1790 字

    阅读完需:约 6 分钟

大小:785.47K时长:04:28
15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行

3 月 30 日,OpenAI 在官网首次展示了名为“ Voice Engine ”的语音生成模型,该模型能够通过文本输入和仅仅 15 秒的音频样本生成与原始说话者声音高度相似、充满情感且逼真的自然语言语音。据悉,OpenAI 于 2022 年末首次开发出 Voice Engine,并已将其应用于其文本转语音 API 以及 ChatGPT 语音和朗读功能中的预设语音。


这项技术的问世,显然将对那些经常录制自己语音的人产生重大影响,包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。


不过目前,这项技术仅在小范围内提供,拥有访问权限的公司包括:教育技术公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、AI 通信应用程序创建者 Livox 和卫生系统 Lifespan。 OpenAI 在其博客文章中表示:“这些小规模部署有助于为我们的方法、保障措施提供信息,并思考语音引擎如何在各个行业中发挥作用。”


官网文章中,OpenAI 也展示了 Voice Engine 的使用示例。首先,提供英文参考音频:

00:00
00:15


基于该示例,以下是三个 AI 生成的音频剪辑:

00:00
00:06


00:00
00:16


00:00
00:07


可以说,无论从音色,还是从语调、停顿等方面来看,OpenAI 的产出结果都模仿得惟妙惟肖。


OpenAI 目前使用该工具的开发合作伙伴之一,非营利性医疗系统 Lifespan 的诺曼·普林斯神经科学研究所(Norman Prince Neurosciences Institute)正在使用该技术帮助患者“恢复声音”:有一名患者因脑肿瘤失去了清晰说话的能力,该公司通过她早期在学校演讲的录音,“复制”出了她的声音。


这个模型还可以将其生成的音频翻译成不同的语言,使得它对音频业务公司很有用,比如 Spotify Technology SA。Spotify 已经在自己的试点项目中使用了这项技术来翻译 Lex Fridman 等热门主持人的播客。


AI 文本到音频生成是生成式 AI 的一个领域,正在不断发展。目前大多数专注于生成器乐或自然声音,语音生成方面相对较少被接触,部分原因是人们对深度伪造风险的担忧。


造假风险?


与 OpenAI 之前在生成音频内容方面的努力不同,Voice Engine 可以创建听起来很像本人的语音,并具有特定的节奏和语调。软件需要的是 15 秒录制的人说话的音频,以重现他们的声音。


在该工具的演示中,外媒听取了 OpenAI 首席执行官 Sam Altman(萨姆·奥特曼) 的一段视频,他简要解释了这项技术,声音听起来与他的实际演讲没有区别,但完全是人工智能生成的。


“如果你有正确的音频设置,Voice Engine 基本上能生成与本人无异的声音,”OpenAI 的产品负责人 Jeff Harris(杰夫·哈里斯)说。“它的技术质量令人印象深刻。”不过,哈里斯最后补充说:“在真正准确地模仿人类说话的能力方面,显然存在很多安全问题。”


就在不久之前,已经有 AI 技术被用于伪造声音。今年 1 月,一个自称是 Joe Biden(乔·拜登)总统的人打电话鼓励新罕布什尔州的人们不要在初选中投票,声音听起来十分逼真,这一事件在关键的大选之前也引发了人们对 AI 的担忧。


OpenAI 的一位发言人表示,在收到政策制定者、行业专家、教育工作者和创意人员等利益相关者的反馈后,他们决定缩减发布规模。“我们认识到,产生类似于人们声音的言论具有严重的风险,这在选举年尤其重要,” OpenAI 在一篇博客文章中写道。“我们正在与来自政府、媒体、娱乐、教育、公民社会等领域的美国和国际合作伙伴合作,以确保我们在建设过程中采纳他们的反馈。”


据悉,OpenAI 要求合作伙伴同意遵守其使用政策,不使用该模型来冒充个人或组织,且需要获得原始说话者的“知情同意”,并向听众披露这些声音是 AI 生成的。OpenAI 还在音频剪辑中添加了一个听不见的音频水印,使其能够区分一段音频是否是由 Voice Engine 创建的。


在文章的最后,OpenAI 呼吁银行逐步取消语音认证,作为访问银行账户和敏感信息的安全措施。它还呼吁加强对 AI 深度伪造的教育,并更多地开发用于检测音频内容是真实的还是 AI 生成的技术,以应对更先进的 AI 技术带来的挑战。


参考链接:


https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices 


https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model


https://www.bloomberg.com/news/articles/2024-03-29/openai-previews-new-audio-tool-that-can-read-text-mimic-voices?srnd=technology-vp

2024-04-02 09:526061

评论

发布
暂无评论

ONES 入选北大光华 MBA 整合实践项目,推动校企合作

万事ONES

XLD音频无损解码器:X Lossless Decoder中文激活版

真大的脸盆

Mac Mac 软件 音频解码 音频处理工具 音频管理

融合低代码与GPT,微软的又一个神奇颠覆

ToB行业头条

忘记英文单词拼写怎么办?试试OS X 系统的英文补全功能

理理

mac电脑 英文补全功能

软件测试/测试开发丨iOS自动化测试之基于模拟器的自动化测试

测试人

ios 软件测试 自动化测试 测试开发

Pushing to Git returning Error Code 403

刿刀

宝塔SSH ROOT账号无法登录

源字节1号

开源 软件开发 小程序开发

Downie Mac使用教程:如何下载B站(哔哩哔哩)高清视频?Downie4许可证

理理

苹果 bilibili Downie下载

adobe应用安装提示【错误代码1】解决方法~

理理

adobe adobe安装错误

一文详解Java中的ThreadLocal

做梦都在改BUG

Java 多线程 线程池 ThreadLocal

火山引擎VeDI零售行业解决方案 聚焦精准营销场景提升品牌转化

字节跳动数据平台

大数据 云服务 数据平台 企业号 3 月 PK 榜

国际版语音房聊天APP,视频语音平台开发搭建经验及后台项目简要说明

山东布谷科技胡月

语音聊天系统 语音直播app开发 国际版语音直播APP 国际版语音系统源码 语音聊天房系统搭建

自动化回归测试平台 AREX 0.2.7 版本正式发布!

AREX 中文社区

开源 自动化测试 接口测试 回归测试

bitget合约一键跟单社区交易平台开发功能以及模式分析

开发微hkkf5566

软件测试/测试开发丨iOS自动化真机测试验证环境过程中常见问题

测试人

软件测试 自动化测试 测试开发 ios测试

软件测试/测试开发丨app自动化测试之Appium 源码分析

测试人

软件测试 自动化测试 测试开发 appium

腾讯T4整合Spring+Spring MVC+MyBatis+Redis实现,附源码

做梦都在改BUG

Java redis 面试 SSM框架

小程序营销模板的发展现状及前景分析

没有用户名丶

小程序

丝滑!用了这款开发工具,我成了整个公司代码写得最秀的码农

这我可不懂

程序员 码农 低代码 JNPF

Metasequoia 激活版(水杉三维模型游戏建模)

理理

水杉3D建模 Metasequoia 4 破解

安装Agisoft Metashape Pro的Mac电脑配置要求

理理

三维建模 Agisoft Metashape配置

文档智能分析产业实践,基于PP-StructureV2和OpenVINO实现训练部署开发全流程

飞桨PaddlePaddle

双非渣硕,开发一年,苦刷算法三个月,四面字节成功斩获offer

做梦都在改BUG

Java 数据结构 面试 算法

太厉害了!GitHub上标星80K的微服务实战笔记,看完跪了

做梦都在改BUG

Java 微服务 Spring Cloud Spring Cloud Aliababa

扫一扫,原来这么简单

HarmonyOS SDK

HMS Core

第二届“鼎新杯”数字化转型应用征集大赛在京启动

信通院IOMM数字化转型团队

数字化转型 鼎新杯

Spring为什么需要三个级别的缓存来解决循环依赖

做梦都在改BUG

Java spring 面试 循环依赖 三级缓存

AI 未来已至,向量数据库站在新的节点上

Zilliz

英伟达 非结构化数据 Milvus 向量数据库

视频转换工具:MacX Video Converter Pro中文版

真大的脸盆

Mac Mac 软件 视频转换 格式转换器

用 JavaScript 写出一个彩票系统?

泰罗凹凸曼

JavaScript 前端

Python Dev Day@北京站,我们来啦!

PyChina

15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行_AI&大模型_傅宇琪_InfoQ精选文章