写点什么

发布即被山寨?字节跳动推出语音生成模型数小时后就被“盗版”,作者直呼离谱!

  • 2024-06-11
    北京
  • 本文字数:2436 字

    阅读完需:约 8 分钟

大小:1.15M时长:06:41
发布即被山寨?字节跳动推出语音生成模型数小时后就被“盗版”,作者直呼离谱!

近日,被称为 GPT-4o 平替的 ChatTTS 文本转语音开源项目爆火。没多久,字节跳动也推出了自己的语音生成模型 Seed-TTS,能生成与人类语音几乎没有区别的语音,支持多种语言包括英语、中文,能够进行同语言生成和跨语言生成。

 

不过让人没想到的是,6 月 4 日,字节刚公开发布相关论文后,市面上立马就出现了不止一个山寨 Seed-TTS 的网站,而其中部分山寨网站实际项目套壳了 ChatTTS。目前,AI 前线至少发现了三个山寨网站,分别是:

 

http://seed-tts.com

http://seedtts.com

https://seedtts.ai/

 

其中,最后一个网站曾直接 link 到了 ChatTTS 开源仓库。



不过截至本文成稿时,https://seedtts.ai/ 网站已经增加了“非字节跳动官方网站”的文字说明,并且点击跳转打开的页面也注明了可以尝试使用 ChatTTS 项目。

 


下面是网友爆料的域名注册信息:




“这世界真是离谱,技术报告才发表了一天,山寨 Seed-TTS 的网站就出现了。 套壳 ChatTTS 说是 Seed-TTS。”字节跳动 Seed-TTS 作者之一的陈卓表示。

 

陈卓明确道,考虑到安全问题,Seed-TTS 模型不会开源,但是团队提供了一些评测数据集和测量工具作为 benchmark 使用。

 

另外让陈卓比较气愤的点是,山寨的人同时还在推特上宣传 Seed-TTS 就是 ChatTTS 的套壳。他表示,目前这件事已经上升到了公司的法务部门。

Seed-TTS 效果这么好?

 

会被迅速山寨,那肯定是实现了不错的效果。我们先看下官方给出的示例,这是不同情绪下的声音效果:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    这是根据文字生成的声音效果:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      零样本上下文学习的声音效果:

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        跨语言内容创作能力:

        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          Seed-TTS 一经推出就收到了网友们的好评,StabilityAI 研究员 Tanishq Mathew Abraham 也转发了其论文。不过也有网友表示需要自己上手,担心被官方展示欺骗。

           

          不过,Seed-TTS 目前只提供了技术论文和官方 Demo,暂未开放使用地址。对此,陈卓表示,希望体验 Seed-TTS 的用户可以使用字节语音技术支持的各个产品,比如抖音、剪映等,Seed-TTS 都会逐渐提供支持。

           

          Github:

          https://bytedancespeech.github.io/seedtts_tech_report/…

          论文:

          https://arxiv.org/abs/2406.02430

           

          根据目前官网展示的效果,Seed-TTS 可以应用在虚拟助手、视频配音、电影和游戏配音、新闻和播客制作等场景。

           

          模型的独特性是什么

           


          根据介绍,Seed-TTS 该模型基于自回归和扩散架构,首先使用一个 speech tokenizer 将输入的语音信号转换成一系列离散的语音 tokens。之后,Seed-TTS 的自回归语言模型根据输入的文本和语音标记生成目标语音的标记序列。这个过程依赖于模型对语言结构和语音特性的理解,确保生成的语音标记序列在语义和语法上与输入文本相匹配。

           

          接着,生成的语音标记序列随后被送入一个扩散变换器(diffusion transformer)模型。这个模型负责将离散的语音标记转换成连续的语音表示,这个过程是逐步细化的,从粗糙到精细,以生成平滑且自然的语音波形。

           

          最后,连续的语音表示被送入负责将这些表示转换成可听高质量语音的 Acoustic Vocoder。Acoustic Vocoder 通常使用深度学习技术来模拟人类声道产生语音的过程。

           

          Seed-TTS 模型基于大量数据进行预训练,学习语言和语音的基本规律。之后,可以通过微调来适应特定的说话者或语音风格,进一步提升语音的自然度和表现力。

           

          Seed-TTS 还采用了自我蒸馏方法来实现语音属性的分解,如音色分离,以及使用强化学习技术来增强模型的鲁棒性、说话者相似性和可控性。

           

          对于非自回归的变体 Seed-TTSDiT,它采用完全基于扩散的架构,直接从文本到语音的端到端处理,不依赖预先估计的音素持续时间。

           

          研发团队表示,与之前的模型相⽐,Seed-TTS 有两⼤优势。

           

          ⾸先,Seed-TTS 在各种场景中的语⾳合成能⼒都表现出了很好的⾃然度和表现⼒,包括喊叫、哭泣或情绪激动的语⾳等具有挑战性的场景。

           


           Seed-TTS 与重新合成和真实⼈类语⾳的评估结果

           

          其次,Seed-TTS 解决了基于语⾔模型的 TTS 系统中普遍存在的稳定性问题,这些问题阻碍了它们在现实世界中的部署。稳定性是团队通过改进 token 和模型设计、增强训练和推理策略、数据增强和强化训练后实现的。因此,Seed-TTS 在测试集上实现了显著更好的稳健性。

           

          不过团队也指出,尽管 Seed-TTS 功能强⼤,但它也存在局限性,比如在需要细微情感和情境理解的场景中存在局限性。此外,尽管使⽤⼤量数据进⾏训练,但在场景覆盖⽅⾯仍有改进空间。 例如,当前的 Seed-TTS 模型在唱歌或给出包含背景⾳乐或过多噪⾳的提⽰时表现不佳。

           

          语音生成的安全问题

           

          OpenAI 发布 GPT-4o 之后,文本转语音模型大火,但相关争议也不断。最为有名的可能就是 OpenAI 与斯嘉丽的争执。

           

          美国演员斯嘉丽·约翰逊质疑 OpenAI 聊天机器人使用酷似她声音的 Sky 语音。根据斯嘉丽此前的说法,奥特曼在去年 9 月找到她,希望她为 ChatGPT 配音,她拒绝了,但近期她发现 OpenAI Sky 系统声音跟她很像。

           

          “那不是约翰逊的声音,不应该是这样的。对于声音的相似程度,人们会有不同的看法,但我们不认为那是她的声音。”奥特曼否定道。受质疑后,OpenAI 同意删除相关语音。

           

          此事件也给业内敲响了警钟。

           

          为了限制 ChatTTS 的使用,团队在 40,000 小时模型的训练过程中添加了少量高频噪音,并使用 MP3 格式尽可能压缩音频质量,以防止恶意行为者将其用于犯罪目的。同时,团队内部训练了一个检测模型,并计划在未来将其开源。HuggingFace 上的开源版本则是一个 40,000 小时的预训练模型,没有 SFT。

           

          而字节跳动团队也明确了这一点。“Seed-TTS 的功能和局限性在多媒体和安全应⽤中带来了重⼤⽽新颖的挑战,我们认为在考虑其潜在的社会影响时必须仔细研究这些挑战。”团队在论文中提到。

           

          根据介绍,考虑到滥⽤可能会产⽣有害的社会影响,字节跳动团队在相关产品中实施了多项安全程序,以防⽌在开发和部署此模型的整个过程中出现滥⽤。例如,团队开发了⼀种多步骤验证⽅法,⽤于验证语⾳内容和说话者⾳⾊,以确保注册⾳频仅包含授权用户的声⾳。此外,团队还实施了⼀种多级⽔印⽅案,该⽅案强制包含在创建内容的各个级别,例如视频背景⽔印和内容描述中的⽔印。

          2024-06-11 14:295835

          评论

          发布
          暂无评论
          发现更多内容

          使用 Docker 部署 instantbox 轻量级 Linux 系统

          不在线第一只蜗牛

          Docker Linux 容器

          2024-04-17:用go语言,欢迎各位勇者莅临力扣城,本次的挑战游戏名为「力扣泡泡龙」。 游戏的起点是一颗形状如二叉树的泡泡树,其中每个节点的值代表该泡泡的分值。勇者们有一次机会可以击破一个节点泡

          福大大架构师每日一题

          福大大架构师每日一题

          数据相关术语、英文翻译以及定义汇总看这里!

          行云管家

          数据 数据安全 企业数据

          云主机AI服务的性能测试和优化

          天翼云开发者社区

          云计算 AI 云服务 云主机

          利用1688.item_get API接口,快速定位智能手表新品,商品ID一键获取

          技术冰糖葫芦

          api 货币化 API 测试 pinduoduo API

          架构设计|基于 raft-listener 实现实时同步的主备集群

          NebulaGraph

          数据库

          简单了解国密与信创的四大关系-行云管家

          行云管家

          信创 数据安全 国产化 国密

          基于开源IM即时通讯框架MobileIMSDK:RainbowChat v11.5版已发布

          JackJiang

          网络编程 即时通讯 IM

          C++ 递归与面向对象编程基础

          EquatorCoco

          c++ 数据库 递归

          比特币L2项目主网密集上线:新业态背后的挑战与机遇

          区块链软件开发推广运营

          dapp开发 区块链开发 链游开发 NFT开发 公链开发

          Redis 容器化,是不是个“软柿子”?

          小猿姐

          redis 容器化

          通过独立网站的视觉设计策略优化进行品牌推广

          九凌网络

          Apache Doris 2.1.2 版本正式发布!

          SelectDB

          数据库 大数据 开源 实时数仓 Doris

          揭秘APP自动化测试中弹窗异常处理的技术要点!

          测吧(北京)科技有限公司

          测试

          中国服装品牌商品计划管理系统落地难题探究

          第七在线

          Doris Manager 24.0 版本正式发布!

          SelectDB

          数据库 大数据 数据仓库 运维管理 集群管理

          App自动化测试中,如何更好地处理弹窗?

          霍格沃兹测试开发学社

          DTC2024,华为云数据库创新融合大发展,打造世界级数据库!

          华为云开发者联盟

          数据库 华为云 华为云数据库 华为云开发者联盟 企业号2024年4月PK榜

          解决苹果审核4.3问题的有效策略:尝试混淆或重新上架?用这招居然成功上架AppStore了!

          网站结构规范对于独立站的重要性

          九凌网络

          揭秘APP自动化测试中弹窗异常处理的技术要点

          测试人

          App 软件测试 自动化测试 测试开发 弹窗

          深度解读《深度探索C++对象模型》之拷贝构造函数

          爱分享

          c++ C++对象模型 C++拷贝构造函数 C++虚函数 C++虚继承

          一款国产的开发辅助AI插件!

          江南一点雨

          MySQL 开源到商业(一):Sun 公司收购了 MySQL AB

          小猿姐

          MySQL 开源

          Advanced RAG 03:运用 RAGAs 与 LlamaIndex 评估 RAG 应用

          Baihai IDP

          AI LLM 企业号 4 月 PK 榜 rag 检索增强生成

          网络审计:为什么定期检查您的网络很重要

          天翼云开发者社区

          云计算 网络安全 网络审计

          【活动报名】WorkPlus AI助理沙龙——把AI装进企业,企业级AI落地场景分享

          BeeWorks

          面试,有时候是个运气活

          老张

          面试 求职

          以NFT起头的Berachain 有什么魔力?

          币离海

          区块链 NFT Berachain

          再获权威认可!天翼云论文被IEEE/ACM CCGrid收录

          天翼云开发者社区

          云计算 私有云 云网关

          发布即被山寨?字节跳动推出语音生成模型数小时后就被“盗版”,作者直呼离谱!_AI&大模型_褚杏娟_InfoQ精选文章