HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Meta 开源文本生成音乐 AI:AudioCraft 将文字转化为和声

  • 2023-10-04
    北京
  • 本文字数:900 字

    阅读完需:约 3 分钟

大小:470.08K时长:02:40
Meta 开源文本生成音乐AI:AudioCraft 将文字转化为和声

Meta开源了它的 Text-to-Music 生成式人工智能AudioCraft,供研究人员和从业者训练他们自己的模型,并帮助推动前沿技术的发展。

 

AudioCraft 包含三个不同的模型:MusicGen能够根据文本提示生成音乐;AudioGen能够产生环境声音;EnCodec是一个由 AI 驱动的编码器/量化器/解码器。


今天,我们很高兴地发布了我们的改进版 EnCodec 解码器,它可以用更少的伪像(artifacts)生成更高质量的音乐;这个预训练的 AudioGen 模型可以生成环境声音以及狗叫、汽车喇叭声或木地板上的脚步声等音效;我们将分享所有的 AudioCraft 模型权重和代码。

 

据 Meta 介绍,AudioCraft 能够使用自然界面生成高质量的音频。此外,他们还说,AudioCraft 利用一种新方法简化了音频生成领域最先进的设计。

 

具体来说,AudioCraft 使用 EnCodec 神经音频编解码器从原始信号中学习 Audio Token。这一步从音乐样本创建出了固定“词汇表”(Audio Token),并随后将其传递给自回归语言模型。这个模型训练了一个新的音频语言模型,利用 Token 的内部结构来捕捉它们的长程依赖关系,这对音乐生成至关重要。最后,这个新模型基于文本描述生成新的 Token,并将其反馈到编解码器的解码器以合成声音和音乐。


生成任何类型的高保真音频都需要在不同的尺度上对复杂的信号和模式进行建模。音乐可以说是最具挑战性的音频类型,因为它由局部和长程模式组成,从一组音符到使用多种乐器的整体音乐结构。

 

如前所述,AudioCraft 是开源的,Meta 希望能够帮助研究社区以它为基础做进一步地构建:


坚实的开源基础将有助于推动创新,丰富我们未来制作和收听音频和音乐的方式:想象一下,配有音效和史诗音乐的丰富多彩的睡前故事读物。借助更多的控制,我们认为 MusicGen 可以变成一种新型乐器——就像合成器刚出现时那样。

 

虽然 AudioCraft 的大部分是开源的,但是他们为模型权重选择了CC-BY-NC许可。Hacker News 上有用户指出,该许可限制较多,并不算完全开源

 

具体来说,非商业性使用条款违背了开源倡议对开源的定义中的第六点,这很可能是因为 Meta 使用了 Meta 拥有并特别授权的音乐来计算这些权重。其余组件将在MIT许可下发布。

 

原文链接:

https://www.infoq.com/news/2023/08/meta-text-to-music-generative-ai/

2023-10-04 08:006085

评论

发布
暂无评论
发现更多内容

为什么要学音视频?

X2Rtc

开源 音视频 RTC 就业

人工智能在艺术和创意领域的作用:数字化的艺术复兴

测吧(北京)科技有限公司

测试

量子计算和人工智能的交叉点:未来智能的新维度

测吧(北京)科技有限公司

测试

“敏捷教练必修课程”11月25-26日 · CSM认证在线周末班【分时段模块化教学】CST导师亲授

ShineScrum捷行

BetterDisplay Pro Mac(显示器管理工具)激活版

iMac小白

BetterDisplay Pro下载 BetterDisplay Pro破解版

Downie 4 for Mac(视频下载工具)中文破解版

iMac小白

Downie 4 Mac版 Downie 4下载 Downie 4破解版

微信多开 WechatTweak for Mac(微信多开、消息防撤回工具)

iMac小白

WeChatTweak 微信多开

人工智能在物流和供应链管理中的作用:优化、智能和未来

测吧(北京)科技有限公司

测试

JetBrains DataGrip 2023 Mac(多引擎数据库管理工具) 2023.2.3完整激活版

mac

datagrip 苹果mac Windows软件 数据库集成开发环境软件

深入浅出:ConcurrentLinkedQueue源码分析与实战

程序员万金游

#java #编程 #程序员 #Java面试题 #java面试

应用容器化转型系列-容器部署的常见形态

品高云计算

区块链与人工智能的融合

测吧(北京)科技有限公司

测试

低代码应用开发能力

树上有只程序猿

低代码 应用开发 JNPF

3D模型如何设置凹凸贴图?

3D建模设计

材质 纹理 贴图

如何设置3D模型法线贴图?

3D建模设计

材质 纹理 贴图

精准突击!Mysql亿级数据开发手册,GitHub 132k starts | 实战解析。

程序员万金游

Java #编程 #Mysql #学习 #程序员】

基于多向量检索器的多模态 RAG 实现

Tiger Wang

多模态 LLM huggingface 大语言模型 langchain

Navicat Premium 16 for Mac v16.2.9中文激活版

iMac小白

Navicat Premium下载 Navicat Premium 16

企业如何安全跨国传输30T文件数据

镭速

跨国数据传输 跨境数据传输

VMware Fusion Pro v13.5.0虚拟机专业破解版

iMac小白

VMware Fusion激活秘钥 VMware Fusion 虚拟机 VMware Fusion13 VMware Fusion破解版下载

优咔科技创新连接方案助力高质量5G车联服务

编程猫

都说在边缘落地视频智能分析难,但是这次有了大模型!

Baidu AICLOUD

边缘计算 大模型 边缘云

DxO PureRAW for Mac(RAW照片处理器)v3.6.2中文激活版

mac

苹果mac Windows软件 DxO PureRAW raw智能照片处理软件

.NET CORE 属性DI注入

gogo

性能卓越 全栈自主 HashData与华为金融数仓一体机联合方案全面解读

酷克数据HashData

Meta 开源文本生成音乐AI:AudioCraft 将文字转化为和声_生成式 AI_Sergio De Simone_InfoQ精选文章