2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

数百万小时训练,6 秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

MiniMax 技术团队

  • 2024-02-01
    北京
  • 本文字数:1381 字

    阅读完需:约 5 分钟

大小:701.41K时长:03:59
数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

从 0 到 1 的 MiniMax 语音大模型


2023 年 11 月,MiniMax 发布语音大模型 abab-speech-01。从 11 月至今,共有超过 400 家企业用户接入我们的语音大模型。


在实际应用中,来自各行各业的用户给我们反馈了很多好的建议和想法。例如,在复刻有声书场景下,市面上没有可以批量、快速生成多角色音频的解决方案;在直播电商等注重互动性的场景中,各家现有语音能力仍无法做到实时,在生成语音的过程中仍需一定的等待时间,非常影响用户体验;在教学场景中,模型碰到特殊字词或者多音字的情况,时常存在发音不准确的问题。


为了给用户带来更加高效、丰富和真实的语音定制体验,我们不断迭代 MiniMax 语音大模型,并基于用户高优需求新增语音 API 接口,并上线了多个产品功能。MiniMax 是目前第一个开放多角色配音商用接口的公司。


在模型基础能力上,我们的语音模型对长达数百万小时的高质量音频数据进行训练,基于它的训练结果,仅用 6 秒的音频就能完成音色复刻,基于文本生成语音的字错率低至万分之五,已达到全球顶尖水平。


针对用户的高优需求,我们新增了以下产品功能:


  • 三个 API 接口:多角色音频生成 API、文本角色分类 API 和快速复刻 API,帮助用户自主批量生成、克隆多角色音频;

  • 多语种能力、字典和间隔时长控制,满足用户丰富的定制化需求,提升教学场景体验

  • T2A Stream (流式语音输出) 实现生成与输出的同步,减少用户在直播、对话等场景的等待时间。


为了让更多用户体验、使用我们的技术,我们在价格上也做出了调整:T2A Pro、T2A、T2A Stream 等价格下调为原先的一半,由 10 元 / 万字符降至 5 元 / 万字符。


具体功能价格调整见下表:



声音小剧场


由于语音模型没有公开的测评集,衡量一个语音模型到底怎么样主要依靠几个比较主观的评判标准,例如:自然度、相似度,可懂度和情感表现等。以下是几个基于我们语音大模型生成、复刻的一些语音效果。大家可以听听看,欢迎拍砖:)


01 中英文夹杂读着毫无压力


文本:

哎,你说你特别想念某个东西,可以说"I really miss it a lot" 或者"I'm missing it terribly." 这样表达出你的感情。有什么特别想念的嘛?想聊聊吗?


声音 1(明杰):

00:00
00:13

声音 2(晨曦):

00:00
00:14


声音 3(祁辰):

00:00
00:14


02 跨语种复刻,比原声更自然


文本:

别担心,犯错是学习的一部分,下次你会做得更好的。Don't worry, making mistakes is part of learning. You'll do better next time.


原声音频(童声):

00:00
00:10

复刻音频(中 + 英):

00:00
00:12

只用中文原声,也可以复刻出他们讲中、英、日、韩等多种语言的声音:

韩语:

00:00
00:06

日语:

00:00
00:07


03 AI 嬛嬛和四爷,有没有甄嬛十级学者来检验一下效果?

00:00
00:12


00:00
00:09


04 多音字绕口令也难不倒!

真人都不一定能读准的多音字绕口令,我们的语音模型可以:)出现多音字的绕口令对语音模型理解上下文提出了很高要求。


“人要是行,干一行,行一行,一行行,行行行,行行行,干哪行都行”


00:00
00:08


05 实时语音通话,跟小海螺打电话吧


MiniMax 不仅为企业用户和开发者提供语音相关的 API,也为普通用户打磨了多款含有语音功能的产品。例如,我们在 AI 助手海螺问问上线了实时语音通话功能——无论你遇到什么问题,都可以随时打电话给小海螺,就像在和朋友聊天一样轻松、自然。小海螺的反应比 ChatGPT 的语音功能还快哦,快来体验一下吧!


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    06 唱 AI 嘻哈


    节奏感强、唱腔复杂的饶舌说唱,我们的模型也能够超酷演绎。

    想和 AI battle 说唱的朋友可以打开链接尝试:

    https://m.xingyeai.com/tag/2760001

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        2024-02-01 17:2710313

        评论

        发布
        暂无评论
        发现更多内容

        苹果Mac文件管理浏览软件Path Finder中文破解版 支持Mac14系统

        Rose

        mac文件管理软件 Path Finder Path Finder破解

        使用CSS圆锥渐变创建背景图案

        南城FE

        CSS css3 前端 渐变

        使用 Kubernetes 简化平台工程

        SEAL安全

        DevOps kubernetes 运维 企业号10月PK榜

        ChatGPT搅动AI芯片的“一池春水”

        IC男奋斗史

        AI 英伟达 芯片 半导体 AI芯片

        GardenPlanner for Mac最新激活版(园林绿化设计软件)

        胖墩儿不胖y

        Mac软件 园林设计工具

        华为云应用中间件DCS系列—Redis实现(社交APP)实时评论

        Navicat Premium 16 Mac数据库管理工具

        展初云

        数据库管理工具 Mac软件

        Bridge 2024 (BR)新功能介绍及破解安装教程

        Rose

        Adobe Bridge 2024 BR2024下载 Bridge 2024破解版 Bridge 2024 中文版

        几款好用的苹果Mac硬盘检测工具

        Rose

        SSD mac软件下载 Mac硬盘健康 硬盘检测软件

        Termius 8 for Mac多协议远程管理软件

        展初云

        Mac软件 远程连接管理工具 远程访问

        大模型训练:深度学习的高级挑战

        Geek_cf26da

        大模型训练 大模型 千帆大模型平台

        Python开发:pycharm pro 2023 永久激活秘钥【Mac/win】

        Rose

        Python开发 PyCharm破解版 PyCharm Pro密钥 JetBrainsPyCharm

        XTransfer重磅发布“AI员工”,安信成CRM“数智化”再提速

        XTransfer技术

        AI CRM XTransfer

        茶百道全链路可观测实战

        阿里巴巴云原生

        阿里云 云原生 可观测

        Programming abstractions in C阅读笔记:p179-p180

        codists

        EVE-NG的Windows客户端安装

        小魏写代码

        RAG (检索增强生成)技术详解:揭秘基于垂直领域专有数据的Chatbots是如何实现的

        Baihai IDP

        AI 白海科技 rag 检索增强生成 Chatbots

        可观测 AIOps 的智能监控和诊断实践丨QCon 全球软件开发大会总结

        阿里巴巴云原生

        阿里云 云原生 AIOPS 可观测

        ATE机台哪家强?

        IC男奋斗史

        芯片 半导体 职场经验 芯片测试 ATE测试

        Avid Sibelius Ultimate 2023 for Mac(西贝柳斯音乐记谱软件)

        Rose

        西贝柳斯终极解锁版 Avid Sibelius 2023 Mac Mac乐谱制作软件

        从策略和实践,带你掌握死锁检测

        华为云开发者联盟

        开发 华为云 图算法 华为云开发者联盟 死锁检测

        启动速度提升 10 倍:Apache Dubbo 静态化方案深入解析

        阿里巴巴云原生

        阿里云 云原生

        Apache Dubbo 云原生可观测性的探索与实践

        阿里巴巴云原生

        Apache 阿里云 云原生 dubbo

        阿里云“玩转云上 StarRocks3.0 湖仓分析”,开启数据分析新范式

        阿里云大数据AI技术

        这三大爆款开源项目竟出自同一个20人的小公司?

        硅基新手村

        DBeaverUltimate 23 for Mac数据库管理软件

        展初云

        数据库管理 Mac软件

        基于 Triple 实现 Web 移动端后端全面打通

        阿里巴巴云原生

        阿里云 微服务 云原生

        垂直大模型训练的关键步骤与策略

        Geek_cf26da

        大模型训练 千帆大模型平台

        数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?_AI&大模型_InfoQ精选文章