70+专家分享实战经验,2024年度AI最佳实践都在AICon北京 了解详情
写点什么

创始人解读:爆改周杰伦的音乐界 ChatGPT 是如何炼成的

  • 2024-03-27
    北京
  • 本文字数:3373 字

    阅读完需:约 11 分钟

大小:1.60M时长:09:20
创始人解读:爆改周杰伦的音乐界ChatGPT是如何炼成的

输入音乐流派风格、内容主题,仅需几秒钟内就可生成 2 分钟音乐......

 

近日,人工智能初创企业 Suno 对外发布了 Suno 模型 V3 版本,并在官网上提供了免费试用。据介绍,在 V2 版本基础上,V3 版本增加了更多音乐风格和流派,同时也加强了对提示词的依从性,减少了幻觉问题,效果更加令人惊艳。所以这款 AI 驱动的歌曲生成器在社区内迅速传播,引发了一股创作热潮。

 

Suno 能够根据用户输入的简单文本描述,生成完整的歌曲作品,包括歌词、人声和配器等所有内容。这使得音乐创作不再局限于专业人士,即使是没有任何音乐基础的人,也能轻松创作出属于自己的歌曲。尽管 Adobe 的 Project Music GenAI、YouTube 的 Dream Track 和 Voicify AI 等 AI 音乐生成器已先行推出,但只有 Suno 脱颖而出,被誉为“音乐界的 ChatGPT”。

 


让 Transformer 唱起来

 

文本转语音(TTS)的发展历程,其底层架构的演变可以概括为共振峰合成→串联合成→神经网络。现如今,最先进的 TTS 只需调用一次 API,即可使用 Eleven Labs 和 OpenAI 的 TTS 模型或 Descript 产品。整个过程延迟极低,语调顺畅自然,甚至能够模仿各种口音。一天之内,大家就能拥有自己的语音 AI 陪聊。那有了语音陪聊 AI 的下一步是什么?当然是让它唱起来!

 

据报道,Suno 创业团队仅成立不到两年时间,由 Mikey Shulman、Keenan Freyberg、Georg Kucsko 和 Martin Camacho 联合创立。四人都是机器学习方面的专家,此前曾一同就职于人工智能企业 Kensho,并想打造出以财务场景为核心的语音识别工具(例如财报电话会议)。但身为音乐家兼音响发烧友,他们开始尝试将文字转语音、AI 和音频生成结合起来,最终离开 Kensho 选择全职创业。

 

当初创办公司时,很多人提醒我们应该专注于语音。大家都说如果想建立一家音频公司,那语音的市场空间更为广阔。但我一直觉得音乐中蕴藏着众多个性化的要素,所以总想要探索一番。于是我们总会情不自禁地构建音乐模型并加以使用,并深深为此而着迷。

 

他们的第一款规模产品就是 Bark,这是首个基于开源 Transformer 的“文本到音频”模型(架构受到 Karpathy NanoGPT 的启发),一个月内就在 GitHub 上从零开始获得 1.9 万颗 star。当时,他们觉得音频生成相较于文本和图像实在太过落后。而且与之前的模型不同,Bark 不仅能够生成语音,还可以输出音乐与音效,例如哭、笑和叹息等。

 

当时困扰他们的核心难题,就是文本到语音的训练数据极其有限。因此,他们决定从头开始构建一款新的基础模型,利用音频进行训练,之后再做微调以实现文本到语音转换。这种将音频转化为令牌来进行自监督学习的方法成为重要的创新成果。与以往适用度有限且相当不自然的 TTS 模型不同,Bark 根据来自广泛上下文的真实音频进行训练,因此输出结果可谓丝滑流利。

 

随着 Bark 的流行,越来越多用户开始使用它生成音乐。从实际效果来看,他们的模型架构确实能够生成人们喜爱的音乐,而且走上了一条其他研究机构相对忽视的独特道路:

 

大家都高度关注大语言模型,特别是其强大的信息处理与智能表现。但我觉得人们似乎忘记了事情的另一面——音乐创作,虽然这部分市场相对较小,但带给人们的感受和愉悦却是非常真实

 

2023 年 12 月,Suno 凭借华丽的新网站加公告帖而一夜爆红:

 


体验过的用户也是好评如潮:



音乐是人类文化的核心,但能够参与音乐制作的群体却始终有限。Mikey 和团队希望让每个人都成为积极的音乐创作者,而不仅仅是被动的接受者。

 

大家开始放飞自我了

 

现在 Suno 正式推出了 V3 Alpha,其中包含大量改进:

 


一经发布,网上便有了大量的演示和用户评论。

 


新的 Suno 模型代表着人工智能音乐的巨大飞跃,其能力是过去版本的 10 倍以上。

提示:“GPT-4 和 Gemini 的说唱对决”

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00



    这不仅仅是升级,它是音乐界的革命!音乐的未来不仅仅在进化,它正以前所未有的速度进行着变革。

     

    网友 Yong 则表示从此他不需要花钱请专业的人来帮忙写歌了。

     


    而且不仅英文歌曲在行,中文歌曲也很溜。有人将周杰伦的《夜曲》歌词喂给 Suno,作出的歌被网友评价:“这版《夜曲》太震撼了,简直要碾压如今的华语乐坛。”

     



    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      Suno 还能将《七里香》换成粤语版本的。网友 Gorden Sun 表示,方法很简单,就是让 ChatGPT 给歌词生成粤语拼音标注,然后在 style 里写上 Cantonese song,就可以了。

       


      甚至有人还将菜谱放进了 Suno,这曲恶搞的《宫保鸡丁》直接爆火,妥妥地展示了一把 Suno 的实力。

       


      还有放飞得更厉害的,用 ChatGPT 按以下意思生成了歌词,喂给了 Suno,来了首《刚转行工程师就遇上了大裁员》。

       


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        Suno 音频生成模型的背后

         

        音频生成具体场景分为三大类:音乐、语音和音效(SFX)。Suno 是这波将音乐与语音相结合的音频生成探索中的最新产物,其历史可以追溯至 Tensorflow Magenta(也许之前还有更早的 AI 音乐项目,但我们暂时没有查到)。其他相关尝试还包括翻译与语音生成的无缝混合、Audiobox 加语音与音效,以及专门生成音乐和音效的 Stable Audio。目前市面上还没有出现能够搞定所有这些用例的模型,但相信未来定会出现,而 Transformers(也许是 Diffusion Transformers)大概率会继续充当其核心。

         

        Mikey Shulman 认为音频生成的这些细分用例仍有改进的空间,文本那边也同样如此。所以这是个不断发展的领域。而且从宏观上看,音频生成已经明显落后于图像和文本生成了。粗略地讲,音频生成可能落后图像和文本一到两年时间。而现在的我们必须像 2022 年思考文本生成那样考虑音频生成。毕竟 Transformers 就在那里,也的确有效,但还远远不够。

         

        他们倾向选择 Transformers,也就是说 Suno 的音频生成之道跟文本生成非常相似。其中提出了 token 令牌的抽象概念,通过训练模型来预测接下来将要出现的 token 的概率。所以在本质上 Suno 仍然是个语言模型。该团队从文本生成领域的先驱者那里学到了很多,包括这些 transformers 模型的工作效果如何、适合解决哪些问题、不适合解决哪些问题等等。

         

        “从本质上讲,我们用 Transformers 处理音频的方式跟用它处理文本的方式完全相同。我们是在预测下一小段音频,并不断重复这个过程以根据需要输出音频结果。”

         

        Mikey 表示 Suno 刚开始的研究工作确实比较困难、进展也不理想。但好在思路始终清晰,那就是尽可能少加入显式知识。举例来说,他们不会在 GPT 中以编程的形式告诉它这是名词、那是动词,模型本身会隐式掌握所有这一切。这种人类的干涉反而会破坏模型的学习过程,所以在音乐和音频方面也一样,尽量不人为地向模型强加任何规则,而是让它自己学习和探索

         

        “现在来看这种方法确实得到了回报,但当初我们也不确定这种做法到底可不可行。”

         

        比如说,我们可以采取文本转语音之类的原有技术,也可以用音素之类的方式进行编程,可选的方法很多。但这些会把模型限制在通过音素来表达这种单一方法上。哪怕在短期之内关键效果很好,但从长远来看,这种方式也可能上限不高。所以 Suno 的方法就是始终强调泛化、始终强调端到端,哪怕这意味着模型的短期表现会差一些,他们也坚信这才是长远意义上的正确选择。

         

        如何分配不同音乐流派的比例、是否需要把声乐和器乐部分区分开,这跟高质量音乐模型的微调工作相关,这部分要做的事情很多,而这也是 Suno 团队投入精力最多、堪称秘密武器的部分。Mikey 介绍说这部分的工作核心就是把 Transformers 在文本领域的优势转移到音频中来。一大关注核心就是如何将音频正确转化成 token,这个令牌化的过程非常重要。具体方法跟目前的开源大模型类似,还会使用多种不同模型来学习离散表示,借此对音频进行编码。其中包括找出正确的隐式偏差,还有向模型注入正确的数据。比如要如何确保用户能随意生成所有音频?这肯定需要区分语音、背景乐还有人声的部分,而这一切都是为了确保真正捕捉到音频生成所需要的手段。

         

        对于训练数据,Mikey 表示单凭音乐来训练高质量模型不太行,还得辅以其他素材,比如最让大家头痛的真实人声素材。跟大语言模型一样,Suno 的音频模型也需要接纳各种各样的人声,它们虽然不属于音乐,但同样能帮助模型学习知识。

         

        “总之,我觉得目前的发现还处于极早期阶段,我们才刚刚触及到实现目标的正确方法的浅表。当然,这也同样令人非常兴奋,就是说从后续发展的角度看,我们还有很多易于实现的目标能够达成。”

         

        参考资料:

         https://twitter.com/FinanceYF5/status/1772189513726431517

        https://www.latent.space/p/suno

        https://www.suno.ai/blog/v3

        https://app.suno.ai/

        2024-03-27 15:412678

        评论

        发布
        暂无评论

        【ChatGPT应用篇】助力Beauty代码的初体验 | 京东云技术团队

        京东科技开发者

        人工智能 ChatGPT 企业号 6 月 PK 榜

        5年Java经验字节社招:15天3次面试,成功拿下Offer

        程序知音

        Java java面试 大厂面试 后端技术 Java面试八股文

        二层交换机和三层交换机到底有啥区别?如何从二层切换到三层模式,结合思科、华为、瞻博三厂商!

        wljslmz

        6 月 优质更文活动

        华为云GaussDB以技术创新引领金融行业分布式转型

        YG科技

        🔥笔下生花,与时舒卷,InfoQ写作社区6月优质更文活动来啦!

        InfoQ写作社区官方

        热门活动 6 月 优质更文活动

        自动化回归测试平台 AREX 前端架构演变史 —— Tabs 动态组件设计

        AREX 中文社区

        Vue 前端 软件测试

        开源赋能 普惠未来|元遨/CARSMOS诚邀您参与2023开放原子全球开源峰会

        开放原子开源基金会

        开源 CARSMOS 元遨

        国产自研数据库是更新换代首选

        YG科技

        你还在用 BeanUtils?试试 MapStruct,优雅的对象转换解决方案!

        Java你猿哥

        Java ssm map

        面渣逆袭必看!Java中高级面试指南,Github标星4.3k+!

        做梦都在改BUG

        Java java面试 Java八股文 Java面试题 Java面试八股文

        记一次618军演压测TPS上不去排查及优化 | 京东云技术团队

        京东科技开发者

        JVM 压测 调优 压测分析 企业号 6 月 PK 榜

        GitHub 爆火的「算法刷题宝典」,电子版终于出来了

        做梦都在改BUG

        Java 数据结构 算法 LeetCode

        宝兰德应用服务器软件与华为云GaussDB完成兼容互认证

        YG科技

        轻量灵动: 革新轻量级服务开发 | 京东云技术团队

        京东科技开发者

        jdk8 GraalVM jdk17 企业号 6 月 PK 榜

        GitHub标星137k+,超全面Java知识点总结!从10K到40K全有了

        做梦都在改BUG

        Java

        从BeyondCampus最佳实践,洞察高校零信任发展趋势

        权说安全

        [EuroSys2023 Best Poster] 面向动态图的极低时延GNN推理采样服务

        阿里云大数据AI技术

        人工智能 机器学习 推理 企业号 6 月 PK 榜 DGS

        Csdn上20W+阅读,这份“Java核心万字宝典”霸榜9天,太香了

        做梦都在改BUG

        Java

        阿里、字节大佬共创的Netty核心原理手册,必须是全网No.1

        程序知音

        Java Netty java架构 Java进阶 后端技术

        入职阿里?最少啃完这本500页Java并发多线程源码笔记

        程序知音

        Java 并发编程 多线程 高并发 后端技术

        2023秋招Java 面试必刷的1200 道Java大厂面试真题(含答案解析)

        采菊东篱下

        java面试

        行业DBA走进华为,共建数据库生态

        YG科技

        火山引擎DataLeap的Catalog系统搜索实践(三):Learning to rank与后续工作

        字节跳动数据平台

        数据湖 数据化 数据平台 大数据分析 DataLeap

        大语言模型的创意能力到底几何?探索从GPT-2到GPT-4的演进

        Baihai IDP

        人工智能 自然语言处理 大模型 白海科技 企业号 6 月 PK 榜

        如何开发视频上传和播放功能时,既省钱又体验好?

        北桥苏

        php ffmpeg OSS HLS m3u8

        从入门到精通,阿里内部手抄微服务架构笔记,看完感觉我又行了!

        做梦都在改BUG

        Java 架构 微服务 Spring Cloud spring cloud alibaba

        【2023华为云CodeArts Build 实战训练营】云端实战-玩转编译构建

        华为云PaaS服务小智

        云计算 华为云 华为开发者大会2023

        软件测试/测试开发丨接口自动化测试学习笔记分享

        测试人

        程序员 软件测试 自动化测试 接口测试 测试开发

        文盘Rust -- tokio绑定cpu实践 | 京东云技术团队

        京东科技开发者

        rust cpu tokio 企业号 6 月 PK 榜

        牛客网最新版Java面试题大全带答案 1400多题(限时分享)

        架构师之道

        Java 面试

        深度解析Seata AT 模式中性能优化与隔离保障的平衡之道

        Java你猿哥

        Java 数据 ssm 脏读

        创始人解读:爆改周杰伦的音乐界ChatGPT是如何炼成的_生成式 AI_Tina_InfoQ精选文章