QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

15 秒音频即可“复制”原声!但 OpenAI 担心新语音模型被滥用而限制发行

  • 2024-04-02
    北京
  • 本文字数:1790 字

    阅读完需:约 6 分钟

大小:785.47K时长:04:28
15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行

3 月 30 日,OpenAI 在官网首次展示了名为“ Voice Engine ”的语音生成模型,该模型能够通过文本输入和仅仅 15 秒的音频样本生成与原始说话者声音高度相似、充满情感且逼真的自然语言语音。据悉,OpenAI 于 2022 年末首次开发出 Voice Engine,并已将其应用于其文本转语音 API 以及 ChatGPT 语音和朗读功能中的预设语音。


这项技术的问世,显然将对那些经常录制自己语音的人产生重大影响,包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。


不过目前,这项技术仅在小范围内提供,拥有访问权限的公司包括:教育技术公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、AI 通信应用程序创建者 Livox 和卫生系统 Lifespan。 OpenAI 在其博客文章中表示:“这些小规模部署有助于为我们的方法、保障措施提供信息,并思考语音引擎如何在各个行业中发挥作用。”


官网文章中,OpenAI 也展示了 Voice Engine 的使用示例。首先,提供英文参考音频:

00:00
00:15


基于该示例,以下是三个 AI 生成的音频剪辑:

00:00
00:06


00:00
00:16


00:00
00:07


可以说,无论从音色,还是从语调、停顿等方面来看,OpenAI 的产出结果都模仿得惟妙惟肖。


OpenAI 目前使用该工具的开发合作伙伴之一,非营利性医疗系统 Lifespan 的诺曼·普林斯神经科学研究所(Norman Prince Neurosciences Institute)正在使用该技术帮助患者“恢复声音”:有一名患者因脑肿瘤失去了清晰说话的能力,该公司通过她早期在学校演讲的录音,“复制”出了她的声音。


这个模型还可以将其生成的音频翻译成不同的语言,使得它对音频业务公司很有用,比如 Spotify Technology SA。Spotify 已经在自己的试点项目中使用了这项技术来翻译 Lex Fridman 等热门主持人的播客。


AI 文本到音频生成是生成式 AI 的一个领域,正在不断发展。目前大多数专注于生成器乐或自然声音,语音生成方面相对较少被接触,部分原因是人们对深度伪造风险的担忧。


造假风险?


与 OpenAI 之前在生成音频内容方面的努力不同,Voice Engine 可以创建听起来很像本人的语音,并具有特定的节奏和语调。软件需要的是 15 秒录制的人说话的音频,以重现他们的声音。


在该工具的演示中,外媒听取了 OpenAI 首席执行官 Sam Altman(萨姆·奥特曼) 的一段视频,他简要解释了这项技术,声音听起来与他的实际演讲没有区别,但完全是人工智能生成的。


“如果你有正确的音频设置,Voice Engine 基本上能生成与本人无异的声音,”OpenAI 的产品负责人 Jeff Harris(杰夫·哈里斯)说。“它的技术质量令人印象深刻。”不过,哈里斯最后补充说:“在真正准确地模仿人类说话的能力方面,显然存在很多安全问题。”


就在不久之前,已经有 AI 技术被用于伪造声音。今年 1 月,一个自称是 Joe Biden(乔·拜登)总统的人打电话鼓励新罕布什尔州的人们不要在初选中投票,声音听起来十分逼真,这一事件在关键的大选之前也引发了人们对 AI 的担忧。


OpenAI 的一位发言人表示,在收到政策制定者、行业专家、教育工作者和创意人员等利益相关者的反馈后,他们决定缩减发布规模。“我们认识到,产生类似于人们声音的言论具有严重的风险,这在选举年尤其重要,” OpenAI 在一篇博客文章中写道。“我们正在与来自政府、媒体、娱乐、教育、公民社会等领域的美国和国际合作伙伴合作,以确保我们在建设过程中采纳他们的反馈。”


据悉,OpenAI 要求合作伙伴同意遵守其使用政策,不使用该模型来冒充个人或组织,且需要获得原始说话者的“知情同意”,并向听众披露这些声音是 AI 生成的。OpenAI 还在音频剪辑中添加了一个听不见的音频水印,使其能够区分一段音频是否是由 Voice Engine 创建的。


在文章的最后,OpenAI 呼吁银行逐步取消语音认证,作为访问银行账户和敏感信息的安全措施。它还呼吁加强对 AI 深度伪造的教育,并更多地开发用于检测音频内容是真实的还是 AI 生成的技术,以应对更先进的 AI 技术带来的挑战。


参考链接:


https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices 


https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model


https://www.bloomberg.com/news/articles/2024-03-29/openai-previews-new-audio-tool-that-can-read-text-mimic-voices?srnd=technology-vp

2024-04-02 09:526402

评论

发布
暂无评论
发现更多内容

Deferred Components-实现Flutter运行时动态下发Dart代码 | 京东云技术团队

京东科技开发者

flutter dart 企业号 5 月 PK 榜 Deferred Components

探索未来智能交通:网联汽车与汽车互联

EMQ映云科技

车联网 物联网 智能交通 汽车互联

2023年Java学习步骤及路线(超详细)

Java你猿哥

Java 微服务 Spring Boot JVM java面试

人工智能将如何改变敏捷项目管理?

敏捷开发

人工智能 项目管理 AI 敏捷开发 Scrum Master

京东购物车如何提升30%性能 | 京东云技术团队

京东科技开发者

性能优化 RPC 企业号 5 月 PK 榜 京东购物车 异步改造

低代码开发平台魔笔 X 浙江广电集团:“10天”成为行业最小创新单位!

移动研发平台EMAS

阿里云 低代码开发 魔笔

阿里微服务实施手册我粉了,原来微服务还可以这样玩

做梦都在改BUG

Java 架构 微服务 Spring Cloud

逆流而上!整合阿里高频考点2023Java岗面试突击指南手册首次亮相

Java你猿哥

Java MySQL redis ssm java面试

DDD在前端应用中的一些思考

阿里技术

前端 DDD

Kafka生产者你不得不知的那些事儿

做梦都在改BUG

Serverless冷扩机器在压测中被击穿问题 | 京东云技术团队

京东科技开发者

Serverless GC 击穿 企业号 5 月 PK 榜 Serverless扩容

深度学习基础入门篇[9.3]:卷积算子:空洞卷积、分组卷积、可分离卷积、可变性卷积等详细讲解以及应用场景和应用实例剖析

汀丶人工智能

人工智能 深度学习 卷积网络 空洞卷积 分组卷积

深度学习基础入门篇[10]:序列模型-词表示{One-Hot编码、Word Embedding、Word2Vec、词向量的一些有趣应用}

汀丶人工智能

人工智能 深度学习 nlp 词向量 序列模型

Java开发分析用什么软件好?

真大的脸盆

Mac JAVA开发 Mac 软件 Java开发分析工具

绕不过的并发编程——synchronized原理

Java你猿哥

Java 并发编程 ssm synchronized

ChatGPT的原理与前端领域实践 | 京东云技术团队

京东科技开发者

人工智能 前端 ChatGPT 企业号 5 月 PK 榜

真香!阿里最新产出分布式进阶实战手册,涵盖分布式架构所有操作

Java你猿哥

架构 分布式 微服务 Spring Cloud Spring Boot

Openjob:更强大、更智能的分布式任务调度框架,重磅发布!

stelin

java; 后端、 分布式,

救命稻草!阿里P8耗时5月打造的架构师速成手册,千金难求

Java你猿哥

程序员 ssm 软件架构 架构设计 架构师

使用 PAI-Blade 优化 Stable Diffusion 推理流程

阿里云大数据AI技术

人工智能 推理 Stable Diffusion 企业号 5 月 PK 榜

LDAP性能测试脚本开发

测吧(北京)科技有限公司

测试

文档图像智能分析与处理:CCIG技术论坛的思考与展望

海拥(haiyong.site)

大模型 文档图像智能处理 OCR技术

百万级数据导出优化方案

做梦都在改BUG

Java性能优化实践与策略

xfgg

Java 优化 规范

Github星标百万!终于有人将Spring技术精髓收录成册

做梦都在改BUG

Java spring 框架

IPQ8072 or IPQ8072A with the QCN9074/9024 chipset / well-suited for high-end routers.

Cindy-wallys

IPQ8072

软件测试 | FTP性能测试脚本开发(1)

测吧(北京)科技有限公司

测试

软件测试 | FTP性能测试脚本开发(2)

测吧(北京)科技有限公司

测试

TLS 加速技术:Intel QuickAssist Technology(QAT)解决方案

vivo互联网技术

TLS 加速 Intel QAT

单机 T 级流量转发吞吐提升 5 倍,可编程负载均衡网关 1.0 上线

百度Geek说

云计算 负载均衡 企业号 5 月 PK 榜

上海国家会计学院刘梅玲:事项法会计可以有力地促进业财融合

用友BIP

业财融合 事项法会计

15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行_AI&大模型_傅宇琪_InfoQ精选文章