写点什么

Web ML 库 Transformers.js 提供文本转语音功能

作者:Agazi Mekonnen I

  • 2023-12-08
    北京
  • 本文字数:1092 字

    阅读完需:约 4 分钟

Web ML 库 Transformers.js 提供文本转语音功能

JavaScript 库 Transformers.js 提供了类似 Python Transformers 库的功能,设计用于在 Web 浏览器中直接运行 Transformer 模型,而不再需要外部服务器参与处理。在最新的 2.7 版本中,Transformers.js 引入了增强功能,其中包括文本转语音(TTS)支持。这次升级响应了用户的诸多需求,扩展了库的应用场景。


文本转语音(TTS)包括从文本创建听起来比较自然的语音,并提供了多种口语语言和 speaker。目前,Transformers.js 只通过 Xenova/speecht5_tts 提供 TTS 支持,而 Xenova/speecht5_tts 基于微软提供的带有 ONNX 权重的 SpeechT5。未来更新计划中包括增加对 bark 和 MMS 的支持。


开发人员可以通过 @xenova/transformers 中的管道函数来使用文本转语音功能,包括指定“文本转语音”任务和要使用的模型('Xenova/ speecht5_ts '),并使用选项{quantized: false}。此外,其中还包含提供 speaker embeddings 的文件链接。


将 TTS 模型应用于给定的文本后,它就会输出音频数组和采样率。该数组表示合成语音,可以进一步处理或直接在浏览器中播放。


Transformers.js 适用于各种用例,包括风格转换、图像绘制、图像着色和超分辨率。它的多功能性和定期更新使其成为开发人员探索机器学习和 Web 开发结合点的宝贵资产,并使其成为 Web 机器学习领域的可靠工具。


按照设计,Transformers.js 在功能上等同于 Hugging Face 的 Python 库 transformers,也就是说,你可以使用非常近似的 API 运行相同的预训练模型。


Transformers.js 支持许多任务和模型,涉及自然语言处理、视觉、音频、表格数据、多模态应用和强化学习。该库涵盖了从文本分类和摘要到图像分割和对象检测的各种任务,这使其成为各种机器学习应用程序的通用工具。


Transformers.js 提供了广泛的模型支持,包括 BERT、GPT-2、T5 和 Vision Transformer(ViT)等架构,确保用户可以针对特定的任务选择正确的模型。


对于 Transformers.js 的发布,社区持积极态度。在今年早些时候发起的 Reddit 帖子中,用户 Intrepid-Air6525 表示:我决定用它来代替 openai 的嵌入模型。速度非常快。我实际使用的 LLM 是 webLLM ,因为我不想消耗太多的 CPU 处理。


用户 1EvilSexyGenius 对 Hugging Face 的市场定位以及关于实际应用的讨论发表了看法:


[…] 借助 Transformers.js 及他们提供的其他优秀的库,很显然, [Hugging Face] 正在努力实现语言模型的民主化,并将它们带给大众。与每天发布的所有模型相比,这样的帖子会让这个社区受益匪浅。


感兴趣的读者可以从 Hugging Face Transformers.js 官方网站及其 GitHub 库中获得更多信息。


原文链接:

https://www.infoq.com/news/2023/11/transformersjs-ml-for-web/


2023-12-08 08:005669

评论

发布
暂无评论
发现更多内容

某俄罗斯小哥,竟靠一个服务器软件直接封神?

沉默王二

nginx

Vue学习的4个实用的Javascript技巧

编程江湖

VUE 3.0 源码

SpringBoot2 API接口签名实现

编程江湖

springboot

聊聊 Kafka: Consumer 源码解析之 Rebalance 机制

老周聊架构

签约计划第二季

架构训练营 - 模块八

Geek_9de3de

架构实战营

如何强化应用安全能力,全面拦截 Log4j 漏洞攻击

阿里巴巴云原生

阿里云 云原生 安全 log4j

读写锁ReentranReadWriteLock源码分析

Ayue、

读写锁 lock

电子书网站推荐

坚果

28天写作 12月日更

中电科技加入龙蜥社区,助力开源生态建设

OpenAnolis小助手

开源社区 龙蜥社区

前端开发:基于移动端的Vue项目的Loading使用

三掌柜

28t 28天写作 12月日更

【转】java开发之SpringBoot数据校验机制

@零度

Spring Boot JAVA开发

结束了(26/28)

赵新龙

28天写作

分析内部运行机制,教你解决Redis性能问题

华为云开发者联盟

数据库 redis 缓存 GaussDB(for Redis) 结构化存储

云图说|ModelArts Pro:让AI开发更简单

华为云开发者联盟

AI 华为云 ModelArts Pro 云图说

如何让 Spring Security 「少管闲事」

mzlogin

Java spring spring security

技术职场主题线上沙龙|程序员百万年薪进阶指南

智联卓聘

职场成长 Java技术提升 技术职场 百万年薪

网易有道 | REDIS 云原生实战

有道技术团队

redis

常回家看看

Tiger

28天写作

“积木拼装”,HarmonyOS弹性部署大揭秘!|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

PassJava 开源 (八) :Spring Cloud 整合 Nacos配置中心

悟空聊架构

nacos 28天写作 passjava 悟空聊架构 12月日更

给弟弟的信第25封|这个世界有上帝吗?

大菠萝

28天写作

php项目使用xdebug远程调试

try catch

php 调试 Xdebug

架构实战营模块七作业

孙志强

架构实战营

书单 | 这6本书,带你轻松学习自动化办公

博文视点Broadview

梦想总是要有的 - 工作20年程序员的2021年度总结

万俊峰Kevin

程序员 微服务 年终总结 年度总结 Go 语言

带你掌握二进制SCA检测工具的短板及应对措施

华为云开发者联盟

测试 二进制 漏洞 二进制SCA检测

架构实战训练营-模块4-作业

温安适

「架构实战营」

开源 Serverless 里程碑:Knative 1.0 来了

阿里巴巴云原生

阿里云 开源 Serverless 云原生 Knative

数据编织趋势探秘

Kafka中文社区

更快的Maven来了,我的天,速度提升了8倍!

王磊

DevTools 实现原理与性能分析实战

vivo互联网技术

chrome 前端 Web

Web ML 库 Transformers.js 提供文本转语音功能_架构/框架_InfoQ精选文章