整理 | 华卫
想象一下,一个 AI 模型可以表达 70 多种情绪,以不同的风格说话,甚至令人信服地模仿口音。并且,它能够同时处理两个音频流,同时听和说。这不是科幻小说,而是 Kyutai 在语音 AI 技术上的最新突破。
只用短短 6 个月的时间,这个由 8 人组成的非营利性 AI 研究实验室从零开发出了一种名为 "Moshi "的实时原生多模态基础 AI 模型。根据 Kyutai 的说法,Moshi 是世界上首个具有自然对话能力的可公开访问 AI 助手。OpenAI 之前曾展示过GPT-4o 的语音引擎和语音模式功能,但尚未发布。
据称,该模型具备的功能可与 OpenAI 的 GPT-4o 和 Google Astra 相媲美,但模型要小得多。“Moshi 在说话时思考。”Kyutai 首席执行官帕特里克·佩雷斯 (Patrick Pérez) 表示,Moshi 具有彻底改变人机通信的潜力。
7 月 4 日,Kyutai 在法国巴黎公开发布了 Moshi 的实验原型,用户可以在网上自由测试体验。值得一提的是,Kyutai 的所有模型都是开源的。之后,该团队不仅计划发布完整模型,包括推理代码库、7B 模型、音频编解码器和优化堆栈。
图灵奖得主Yann LeCun分享说:“Moshi 可以听懂带有法国口音的英语。”就连 PyTorch 之父 Soumith Chintala 也向 Kyutai 表示了祝贺,并透露该团队某成员是他在 Meta 的 AI 研究团队 FAIR 的前同事。
Kyutai 团队
据悉,这家成立于 2023 年 11 月的初创团队,得到了包括法国亿万富翁 Xavier Niel 在内投资的近 3 亿欧元的支持,旨在为 AI 的开放研究做出贡献并促进生态系统发展。Kyutai 还组建了一支由知名人工智能研究人员组成的科学顾问团队——计算机科学家、2022 年麦克阿瑟“天才”奖获得者 Yejin Choi,Meta 首席 AI 科学家、ACM 图灵奖获得者 Yann LeCun 和德国马克斯·普朗克智能系统研究所研究所所长 Bernhard Schölkopf。
对话流畅又会整活,甚至还会“抢话”
在现场演示过程中,Kyutai 团队与 Moshi 进行互动,展示了其在各种说话风格之间无缝切换,以及在角色扮演中迅速化身的创造力。
当被要求用法国口音说话时,Moshi 朗诵了一首关于巴黎的诗;在被要求变身为一个热情洋溢的海盗时,Moshi 讲述了七大洋上的勇敢和冒险故事;Moshi 还能用一种低语的讲述神秘故事的语气,表达《黑客帝国》的电影情节。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
Moshi 还能一秒化身太空助手,和对话用户一同“进入”太空之旅。并且,Moshi 的反应似乎比人类更快,经常在问题或提示被完全提出之前就做出了回答。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
在发布现场的一系列演示中,Moshi 是在没有互联网连接的标准 MacBook Pro 上运行。Kyutai 还计划进一步优化移动设备的 Moshi,确保其广泛采用。这将使 Moshi 更加通用,从个人助理到便携式教育工具,可以在各种环境中使用。
有思想、有情商,半秒内就能回复
据介绍, Moshi 不仅仅是一个语音 AI,还是一个能够处理文本和音频的多模态模型,主要功能特点包括:
同时听和说:Moshi 支持多流音频,使其能够同时收听和响应,从而实现自然流畅的前后对话,其中中断和重叠的语音很常见。与依靠语音活动检测来切换轮次的传统系统不同,Moshi 保持连续的对话流。
文本思想:在用音频说话时,Moshi 会产生文本思想。这种双重方法增强了其产生准确和符合具体情况的响应的能力。通过文本思考,Moshi 可以更有效地组织其响应,并从更丰富的知识库中汲取灵感。
富有情商:Moshi 不仅仅是文字,而是关于理解它们背后的意图。该模型经过训练,可以识别情绪,甚至可以生成传达特定情绪的语音。
实时交互:Kyutai 声称 Moshi 的理论延迟仅为 160 毫秒,而实际上,它在 200 到 240 毫秒之间。
人人可访问:不仅是开源项目,公司、研究人员都可以集成、试验,而且开发了一种可以在个人计算机上运行的较小版本,使这项技术能够被大型研究实验室以外的更广泛的用户使用。
负责任的 AI :Kyutai 正在整合水印技术帮助识别 AI 生成的音频,以确保透明度。
其中,Moshi 最令人印象深刻的方面之一是它能够在设备上运行。此功能解决了隐私问题,并使 AI 在实时应用程序中更易于访问和响应。用户可以与 Moshi 进行交互,而不必担心数据被发送到远程服务器。
70 亿参数提供支持,Moshi 是如何训练的?
Moshi 因其同时处理音频和文本的能力而脱颖而出,而这种实时交互是由 Kyutai 创新的联合预训练过程提供支持。
据了解,Moshi 基于 Helium 7B 模型构建,集成了文本和音频训练,针对 CUDA、Metal 和 CPU 后端进行了优化,支持 4 位和 8 位量化。在训练方面,Kyutai 使用了各种数据源,包括人体运动数据和 YouTube 视频。
Moshi 还集成了基于 Kyutai 的 Mimi 模型的高压缩语音编解码器,可以高效处理音频信息。
训练中,Moshi 涉及一些创新的开创性技术,使其对自然语言和对话流程有了深刻的理解。
音频语言模型:Moshi 的模型不是只在文本上训练,而是在语音数据上训练。语音被压缩成伪词,然后用这些伪词来训练模型以预测下一段音频。这种方法使模型能够理解口语的内容和上下文。
合成对话:为了训练 Moshi 进行对话,Kyutai 从纯文本语言模型中生成了合成对话。然后,这些对话通过内部文本转语音引擎进行合成。这种方法确保其学会了处理真实的对话动态。
同时,Kyutai 以新颖的方法正面解决了传统的语音 AI 系统面临的问题,如延迟和处理过程中非文本信息的丢失,创造了一种响应更灵敏、听起来更自然的 AI。
集成深度神经网络:Kyutai 没有依赖每个任务的单独模型,而是将所有内容合并到一个深度神经网络中。这种集成减少了延迟,并保留了语音通信的丰富性,而语音通信在纯文本处理中通常会丢失。
基于语音的训练:Moshi 的模型从大量压缩的带注释的语音片段中学习,使其能够理解语音的复杂性,包括特定的声音特征和声学条件。
此外,Kyutai 敏锐地意识到高级语音 AI 可能被滥用于恶意目的,如网络钓鱼。为了降低这些风险,Kyutai 实施了识别 Moshi 生成内容的策略,包括维护生成的音频签名的数据库,并使用水印技术在音频中嵌入听不见的标记。
结语
Moshi 代表了语音 AI 技术的重大飞跃。更广泛地说,Moshi 有可能彻底改变数字世界中语音的使用。例如,它的文本到语音功能在情感和多人语音互动方面非常出色。它能够传达情感、调整说话风格和进行自然对话,这将彻底改变我们与人工智能互动的方式,并开启了一个充满可能性的世界:
客服支持:由 Moshi 提供支持的 AI 助手可以提供富有同理心和高效的客服支持,提高用户满意度并减少等待时间。
语言学习:Moshi 模仿母语口音和传达情感的能力可以彻底改变语言学习,使其更加身临其境和有效。
医疗保健:Moshi 可以作为患者的伴侣,提供支持和信息,同时根据用户的情绪状态调整其语气。
娱乐:Moshi 可以凭借其多样化的声音和情感将角色带入生活,丰富互动式讲故事体验。
与此同时,Moshi 的出现隔空对 OpenAI 等主要人工智能公司提出了挑战,这些公司因安全问题而推迟发布类似的语音功能产品而受到不少用户的批评。
不过,也有 Moshi 的使用者表示,其在第一分钟左右的速度和响应速度都非常快,但对话进行的时间越长,就会变得越不连贯;并且,Moshi 明显缺乏知识,在犯了错误而受到责备时,就会惊慌失措,陷入“对不起,对不起...”的循环回复。
虽然 OpenAI 暂时还不需要担心来自 Moshi 的竞争,但确实表明,许多公司正在迎头赶上 OpenAI。就像 Sora 一样,现在 Luma Labs、Runway 等其他公司都在推出表现不弱的竞对产品挑战其模型质量和市场地位。
参考链接:
https://medium.com/@shrimangalevallabh789/moshi-voice-ai-the-advanced-voice-ai-that-feels-almost-human-d185d85da97d
https://analyticsindiamag.com/french-ai-lab-kyutai-releases-openai-gpt-4o-killer-moshi/
公众号推荐:
AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。
评论