Amazon Transcribe – 大规模实现准确的语音转文本_语言 & 开发_亚马逊云科技 (Amazon Web Services）

速来报名！AICon北京站鸿蒙专场~ 了解详情 



 写点什么

今天，我们将发布 Amazon Transcribe 的非公开预览版，这是一种自动语音识别 (ASR) 服务，使开发人员可以轻松地为应用程序添加语音转文本功能。随着带宽和连接情况的不断改进，世界上越来越多的数据以视频和音频格式进行存储。人们创建和使用所有这类数据的速度比以往任何时候都快。对于企业来说，拥有从所有这些丰富的多媒体内容中获取价值的一些手段是非常重要的。利用 Amazon Transcribe，您可以通过高效且可扩展的 API 节省成本昂贵的手动转录过程。

您可以通过使用 API 启动一个任务来分析以许多常见格式 (WAV、MP3、Flac 等) 存储在 Amazon Simple Storage Service (S3) 上的音频文件。您将收到每个单词的带时间戳的详细准确的录音文本以及推断的标点符号。在预览过程中，您可以使用异步转录 API 来以英语或西班牙语转录语音。

很多公司正在寻求从其现有的目录及其传入数据中获取价值。通过转录这些存储的媒体，公司可以：

分析客户电话数据
自动创建副标题
基于内容确定广告目标
针对音频和视频内容存档启用丰富的搜索功能

您可以使用 AWS 命令行界面 (CLI)、AWS 软件开发工具包或 Amazon Transcribe 控制台轻松启动转录任务。

Amazon Transcribe 目前提供 3 个 API 操作 (用途不言自明)：

StartTranscriptionJob
GetTranscriptionJob
ListTranscriptionJobs

以下是一个简单的 Python 脚本，用于启动一个任务并轮询，直到完成该任务：

Python

from __future__ import print_functionimport timeimport boto3transcribe = boto3.client('transcribe')job_name = "RandallTest1"job_uri = "https://s3-us-west-2.amazonaws.com/randhunt-transcribe-demos/test.flac"transcribe.start_transcription_job(    TranscriptionJobName=job_name,    Media={'MediaFileUri': job_uri},    MediaFormat='flac',    LanguageCode='en-US',    MediaSampleRateHertz=44100)while True:    status = transcribe.get_transcription_job(TranscriptionJobName=job_name)    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:        break  print("Not ready yet...")    time.sleep(5)print(status)

复制代码

完成的任务的结果将链接到一个以 JSON 格式包含我们的转录的 Amazon Simple Storage Service (S3) 预签名 URL：

Json

{  "jobName": "RandallTest1",  "results": {    "transcripts": [{"transcript": "Hello World", "confidence": 1}],    "items": [      {        "start_time": "0.880", "end_time": "1.300",        "alternatives": [{"confidence": 0.91, "word": "Hello"}]      },      {        "start_time": "1.400", "end_time": "1.620",        "alternatives": [{"confidence": 0.84, "word": "World"}]      }    ]  },  "status": "COMPLETED"}

复制代码

如您所见，您获得了每个单词的时间戳和置信度得分。

无论是单独使用还是与其他 Amazon AI 服务结合使用，这都是一项功能强大的服务，我迫不及待地想要看到我们的客户会使用这项服务构建什么！

– Randall

附言：

您可能已注意到，这非常适合于 AWS Step Functions，我也是这么认为的。以下是我可能使用的工作流程：

本文转载自 AWS 技术博客。

原文链接：

https://amazonaws-china.com/cn/blogs/china/amazon-transcribe-scalable-and-accurate-automatic-speech-recognition/

发布

暂无评论

创作场景

Amazon Transcribe – 大规模实现准确的语音转文本

评论

世界500强都摒弃使用FTP的真实原因

如何通过”系统设置”自定苹果Mac？

融云 CallPlus + X，通话场景一站式解决方案

Codigger的项目代码检测工具的特性和优势

cad设计绘图 AutoCAD 2024中文最新「支持m芯片」

软件物料清单管理 | 打开“应用软件盲盒”，预警“开源组件风险”

Photoshop创成式AI不能用？Alpaca(羊驼)AI智能创成式填充插件

苹果mac桌面管理软件都有哪些？

企业如何寻找可替代serv-u的国产文件传输系统？

在Mac上，按Command-X键无法剪切怎么办？

Mate60上的这个视频APP，追剧可太香了

IPQ8072/QCN9074/QCN9274/IPQ9574/IPQ6010/IPQ6018 WIFI6E WIFI7 WPA3 Hardware Comparison

苹果电脑串口调试软件：serial 直装激活最新版

从研发域到量产域的自动驾驶工具链探索与实践

一站式运营营销平台

华为云智能化组装式交付方案 ——金融级PaaS业务洞察及Web3实践的卓越贡献

小程序编译器性能优化之路

高效、透明-企事业数字化的采购管理系统(源程序源代码)

算力百川汇蓝海，商海荡漾绘宏图

Databend 开源周报第112期

华为云API Explorer重磅推出API编排，开发者0代码高效构建工作流

Java基础面试题【三】线程(1)

2023年信创云管平台选哪家？咨询电话多少？

超越内存限制：深入探索内存池的工作原理与实现

轻量级业务福音！TDengine Cloud 在国轩高科储能项目中的应用

创作场景

Amazon Transcribe – 大规模实现准确的语音转文本

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载