速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Amazon Transcribe – 大规模实现准确的语音转文本

  • 2019-11-01
  • 本文字数:1371 字

    阅读完需:约 4 分钟

Amazon Transcribe – 大规模实现准确的语音转文本

今天,我们将发布 Amazon Transcribe 的非公开预览版,这是一种自动语音识别 (ASR) 服务,使开发人员可以轻松地为应用程序添加语音转文本功能。随着带宽和连接情况的不断改进,世界上越来越多的数据以视频和音频格式进行存储。人们创建和使用所有这类数据的速度比以往任何时候都快。对于企业来说,拥有从所有这些丰富的多媒体内容中获取价值的一些手段是非常重要的。利用 Amazon Transcribe,您可以通过高效且可扩展的 API 节省成本昂贵的手动转录过程。


您可以通过使用 API 启动一个任务来分析以许多常见格式 (WAV、MP3、Flac 等) 存储在 Amazon Simple Storage Service (S3) 上的音频文件。您将收到每个单词的带时间戳的详细准确的录音文本以及推断的标点符号。在预览过程中,您可以使用异步转录 API 来以英语或西班牙语转录语音。



很多公司正在寻求从其现有的目录及其传入数据中获取价值。通过转录这些存储的媒体,公司可以:


  • 分析客户电话数据

  • 自动创建副标题

  • 基于内容确定广告目标

  • 针对音频和视频内容存档启用丰富的搜索功能


您可以使用 AWS 命令行界面 (CLI)AWS 软件开发工具包 或 Amazon Transcribe 控制台轻松启动转录任务。



Amazon Transcribe 目前提供 3 个 API 操作 (用途不言自明):


  • StartTranscriptionJob

  • GetTranscriptionJob

  • ListTranscriptionJobs


以下是一个简单的 Python 脚本,用于启动一个任务并轮询,直到完成该任务:


Python


from __future__ import print_functionimport timeimport boto3transcribe = boto3.client('transcribe')job_name = "RandallTest1"job_uri = "https://s3-us-west-2.amazonaws.com/randhunt-transcribe-demos/test.flac"transcribe.start_transcription_job(    TranscriptionJobName=job_name,    Media={'MediaFileUri': job_uri},    MediaFormat='flac',    LanguageCode='en-US',    MediaSampleRateHertz=44100)while True:    status = transcribe.get_transcription_job(TranscriptionJobName=job_name)    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:        break  print("Not ready yet...")    time.sleep(5)print(status)
复制代码


完成的任务的结果将链接到一个以 JSON 格式包含我们的转录的 Amazon Simple Storage Service (S3) 预签名 URL:


Json


{  "jobName": "RandallTest1",  "results": {    "transcripts": [{"transcript": "Hello World", "confidence": 1}],    "items": [      {        "start_time": "0.880", "end_time": "1.300",        "alternatives": [{"confidence": 0.91, "word": "Hello"}]      },      {        "start_time": "1.400", "end_time": "1.620",        "alternatives": [{"confidence": 0.84, "word": "World"}]      }    ]  },  "status": "COMPLETED"}
复制代码


如您所见,您获得了每个单词的时间戳和置信度得分。


无论是单独使用还是与其他 Amazon AI 服务结合使用,这都是一项功能强大的服务,我迫不及待地想要看到我们的客户会使用这项服务构建什么!


Randall


附言:


您可能已注意到,这非常适合于 AWS Step Functions,我也是这么认为的。以下是我可能使用的工作流程:



本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-transcribe-scalable-and-accurate-automatic-speech-recognition/


2019-11-01 08:001060

评论

发布
暂无评论
发现更多内容

世界500强都摒弃使用FTP的真实原因

镭速

ftp传输 FTP替代 FTP替代方案

如何通过”系统设置”自定 苹果Mac?

南屿

自定义苹果Mac Mac电脑使用教程 苹果电脑使用

融云 CallPlus + X,通话场景一站式解决方案

融云 RongCloud

API 社交 融云 CallPlus SDK 通话

Codigger的项目代码检测工具的特性和优势

知者如C

cad设计绘图 AutoCAD 2024中文最新「支持m芯片」

胖墩儿不胖y

Mac软件 CAD绘图 cad工具

软件物料清单管理 | 打开“应用软件盲盒”,预警“开源组件风险”

网安云

开源 网络安全 系统安全 开源软件 软件物料清单

Photoshop创成式AI不能用?Alpaca(羊驼)AI智能创成式填充插件

南屿

PS插件下载 Alpaca(羊驼)插件 AI创成式填充插件

苹果mac桌面管理软件都有哪些?

南屿

Mac桌面管理工具 苹果电脑必备软件 Mac破解软件

企业如何寻找可替代serv-u的国产文件传输系统?

镭速

在Mac上,按Command-X键无法剪切怎么办?

南屿

Mac右键助手 Command-X键无法剪切 Mac常见问题

Mate60上的这个视频APP,追剧可太香了

最新动态

IPQ8072/QCN9074/QCN9274/IPQ9574/IPQ6010/IPQ6018 WIFI6E WIFI7 WPA3 Hardware Comparison

wallyslilly

QCN9074 IPQ8072 QCN9024

苹果电脑串口调试软件:serial 直装激活最新版

mac大玩家j

Mac软件 串口调试工具

从研发域到量产域的自动驾驶工具链探索与实践

Baidu AICLOUD

自动驾驶 工具链 仿真

一站式运营营销平台

Quincy

运营 用户增长技术 营销数字化 用户留存 `后端

华为云智能化组装式交付方案 ——金融级PaaS业务洞察及Web3实践的卓越贡献

华为云PaaS服务小智

云计算 软件开发 华为云

小程序编译器性能优化之路

百度Geek说

小程序 性能优化 前端 企业号9月PK榜

高效、透明-企事业数字化的采购管理系统(源程序源代码)

金陵老街

算力百川汇蓝海,商海荡漾绘宏图

鲸品堂

算力 算力网络

Databend 开源周报第112期

Databend

华为云API Explorer重磅推出API编排,开发者0代码高效构建工作流

华为云开发者联盟

软件开发 API 华为云 华为云开发者联盟 企业号9月PK榜

Java基础面试题【三】线程(1)

派大星

Java 面试题

2023年信创云管平台选哪家?咨询电话多少?

行云管家

云计算 云服务 信创 国产化

超越内存限制:深入探索内存池的工作原理与实现

华为云开发者联盟

软件开发 存储 华为云 华为云开发者联盟 企业号9月PK榜

轻量级业务福音!TDengine Cloud 在国轩高科储能项目中的应用

TDengine

tdengine 时序数据库 国产时序数据库

Amazon Transcribe – 大规模实现准确的语音转文本_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章