写点什么

Amazon Transcribe – 大规模实现准确的语音转文本

  • 2019-11-01
  • 本文字数:1371 字

    阅读完需:约 4 分钟

Amazon Transcribe – 大规模实现准确的语音转文本

今天,我们将发布 Amazon Transcribe 的非公开预览版,这是一种自动语音识别 (ASR) 服务,使开发人员可以轻松地为应用程序添加语音转文本功能。随着带宽和连接情况的不断改进,世界上越来越多的数据以视频和音频格式进行存储。人们创建和使用所有这类数据的速度比以往任何时候都快。对于企业来说,拥有从所有这些丰富的多媒体内容中获取价值的一些手段是非常重要的。利用 Amazon Transcribe,您可以通过高效且可扩展的 API 节省成本昂贵的手动转录过程。


您可以通过使用 API 启动一个任务来分析以许多常见格式 (WAV、MP3、Flac 等) 存储在 Amazon Simple Storage Service (S3) 上的音频文件。您将收到每个单词的带时间戳的详细准确的录音文本以及推断的标点符号。在预览过程中,您可以使用异步转录 API 来以英语或西班牙语转录语音。



很多公司正在寻求从其现有的目录及其传入数据中获取价值。通过转录这些存储的媒体,公司可以:


  • 分析客户电话数据

  • 自动创建副标题

  • 基于内容确定广告目标

  • 针对音频和视频内容存档启用丰富的搜索功能


您可以使用 AWS 命令行界面 (CLI)AWS 软件开发工具包 或 Amazon Transcribe 控制台轻松启动转录任务。



Amazon Transcribe 目前提供 3 个 API 操作 (用途不言自明):


  • StartTranscriptionJob

  • GetTranscriptionJob

  • ListTranscriptionJobs


以下是一个简单的 Python 脚本,用于启动一个任务并轮询,直到完成该任务:


Python


from __future__ import print_functionimport timeimport boto3transcribe = boto3.client('transcribe')job_name = "RandallTest1"job_uri = "https://s3-us-west-2.amazonaws.com/randhunt-transcribe-demos/test.flac"transcribe.start_transcription_job(    TranscriptionJobName=job_name,    Media={'MediaFileUri': job_uri},    MediaFormat='flac',    LanguageCode='en-US',    MediaSampleRateHertz=44100)while True:    status = transcribe.get_transcription_job(TranscriptionJobName=job_name)    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:        break  print("Not ready yet...")    time.sleep(5)print(status)
复制代码


完成的任务的结果将链接到一个以 JSON 格式包含我们的转录的 Amazon Simple Storage Service (S3) 预签名 URL:


Json


{  "jobName": "RandallTest1",  "results": {    "transcripts": [{"transcript": "Hello World", "confidence": 1}],    "items": [      {        "start_time": "0.880", "end_time": "1.300",        "alternatives": [{"confidence": 0.91, "word": "Hello"}]      },      {        "start_time": "1.400", "end_time": "1.620",        "alternatives": [{"confidence": 0.84, "word": "World"}]      }    ]  },  "status": "COMPLETED"}
复制代码


如您所见,您获得了每个单词的时间戳和置信度得分。


无论是单独使用还是与其他 Amazon AI 服务结合使用,这都是一项功能强大的服务,我迫不及待地想要看到我们的客户会使用这项服务构建什么!


Randall


附言:


您可能已注意到,这非常适合于 AWS Step Functions,我也是这么认为的。以下是我可能使用的工作流程:



本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-transcribe-scalable-and-accurate-automatic-speech-recognition/


2019-11-01 08:001037

评论

发布
暂无评论
发现更多内容

【愚公系列】2022年7月 Go教学课程 012-强制类型转换

愚公搬代码

7月月更

初学者如何快速的上手Linux命令,这34条新手必会的命令一定得会!

wljslmz

Linux 7月月更

Android实现无序树形结构图,类似思维导图和级联分层图(无序,随机位置)

芝麻粒儿

android 7月月更

mysql数据表查询

乌龟哥哥

7月月更

解读《深入理解计算机系统(CSAPP)》第12章并发编程

小明Java问道之路

Java 后端 并发 csapp 7月月更

JavaScript DOM编程艺术笔记

程序员海军

前端 DOM 7月月更

函数初认识-上

芒果酱

C语言 7月月更

还在为处理事务烦恼吗,要不试试Spring是如何处理业务的

Java学术趴

7月月更

SDL图像显示

柒号华仔

7月月更

SAP Fiori 的附件处理(Attachment handling)

汪子熙

SAP Fiori SAP UI5 ui5 7月月更

jQuery 操作元素

Jason199

jquery js 7月月更

zookeeper-认识watcher

zarmnosaj

7月月更

开发第一个Flink应用

程序员欣宸

Java flink 7月月更

常见链表题及其 Go 实现

宇宙之一粟

链表 7月月更

LeetCode 242:有效的字母异位词

武师叔

7月月更

Block 的分类

NewBoy

ios 前端 移动端 iOS 知识体系 7月月更

软核微处理器

贾献华

7月月更

【萌新解题】三数之和

面试官问

面试 LeetCode

Android热更新调研汇总

沃德

android 程序员 7月月更

Pyodide 中实现网络请求的 3 种方法

OpenHacker

Python pyodide

jQuery 的节点操作

Jason199

jquery js 7月月更

通过Dao投票STI的销毁,SeekTiger真正做到由社区驱动

股市老人

通过Dao投票STI的销毁,SeekTiger真正做到由社区驱动

鳄鱼视界

关于目前流行的 Redis 可视化管理工具的详细评测

宁在春

redis 7月月更 Redis 可视化工具

Android ANR和OOM

沃德

android 程序员 7月月更

【Docker 那些事儿】容器网络(上篇)

Albert Edison

Docker Kubernetes 容器 云原生 7月月更

深度学习-多维数据和tensor

AIWeker

7月月更 多维数据

mysql进阶(六)模糊查询的四种常见用法介绍

No Silver Bullet

MySQL 7月月更 模糊查询

【LeetCode】滑动窗口的平均值Java题解

Albert

LeetCode 7月月更

队列的链式表示和实现

工程师日月

算法 7月月更

分库分表

ES_her0

7月月更

Amazon Transcribe – 大规模实现准确的语音转文本_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章