写点什么

使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统

  • 2020-09-13
  • 本文字数:3079 字

    阅读完需:约 10 分钟

使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统

Original URL: https://aws.amazon.com/cn/blogs/machine-learning/building-a-speech-to-text-notification-system-in-different-languages-with-aws-transcribe-and-an-iot-device/


您是否希望访客能在您不在家时给您留言?是否希望这样的解决方案能够支持您惯常使用的母语?其实很简单,我们可以轻松构建起这样一套具有成本效益的解决方案,而且只需要为实际使用的资源付费。


本文将向大家介绍如何构建一套通知系统,其能够检测造访人士、录制音频、将音频转录为文本、并通过您熟悉的语言将文本发送至移动设备端。这套解决方案中将用到以下服务:


先决条件

要完成本轮演练,您需要做好以下准备:


工作流与架构

当传感器检测到指定范围内的人员时,接入 Raspberry Pi 的扬声器会播放初始问候语,并提示用户录制一条语音消息。该录音将被发送至 Amazon S3,由后者触发 Lambda 函数以使用 Amazon Transcribe 将语音转录为文本。转录完成之后,用户将从 Amazon SNS 处接收转录的文本通知。


下图所示,为这套解决方案的工作流程。



Amazon Transcribe 使用的深度学习过程名为自动语音识别(ASR),能够按照您选定的语种将语音快速准确地转换为文本。它还能自动添加标点符号与格式,确保输出结果具有可与手动转录相媲美的准确度。您还可以使用自定义词汇表配置 Amazon Transcribe,以获取更准确的转录效果(例如,添加家中成员的姓名)。您也可以通过配置词汇表去删除转录结果中的某些特定词汇(例如亵渎或者冒犯性词语)。Amazon Transcribe 支持多种不同语言。关于更多详细信息,请参阅Amazon Transcribe是什么?

上传 CloudFormation 栈

本文将提供一套 CloudFormation 模板,该模板将创建一个输入 S3 存储桶,用于触发 Lambda 函数以将音频转录为文本,而后通过 SNS 通知将文本发送给用户。当然,模板中也包含完成上述流程所需要的权限。


  • 下载 CloudFormation模板

  • 在 AWS CloudForamtion 控制台上,选择 Upload a template file

  • 选择您已经下载完成的文件。

  • 选择 Next

  • Stack Name 部分,输入您的栈名称。

  • Parameters 下,使用以下输入对模板参数进行更新


参数默认说明
MobileNumber必填一个可接收SNS通知的有效手机号码。
LanguageCode必填音频文件的语言代码,例如English US。
SourceS3Bucket必填一个唯一的存储桶名称。


  • 选择 Next

  • Options 页面上,选择 Next

  • 在 Review 页面上,查看并确认各项设置。

  • 选定勾选框以确认由模板创建相关 IAM 资源。

  • 选择 Create


大家可以在 AWS CloudFormation 控制台上查看栈状态。您应该会在 5 分钟左右内看到状态转换为CREATE_COMPLETE


  • Outputs 中记录 BucketNameRaspberryPiUserName

下载欢迎消息

要下载欢迎消息,请完成以下步骤:


  • 在 Amazon Polly 控制台的 Plain text 选项卡上,输入您的欢迎信息。

  • Language and Region 部分,选择您的首选语言。

  • 选择 Download MP3



  • 将该文件重命名为greetings.mp3

  • 将文件移动至raspberrypi /home/pi/Downloads/文件夹。

设置 AWS IoT 凭证提供程序

设置 AWS IoT 凭证之后,我们才能安全地对物联网设备进行身份验证。关于具体操作说明,请参阅如何使用AWS IoT凭证提供程序消除设备中的AWS硬编码凭证需求。在该文第 3 步中添加以下策略,以将文件上传至 Amazon S3(而非更新 Amazon DynamoDB 表):


Json


             {                "Version": "2012-10-17",                "Statement": {                  "Effect": "Allow",                  "Action": [                    "s3:PutObject"                  ],                  "Resource": "arn:aws:s3:::<sourceS3Bucket>"                }              }
复制代码

设置 Raspberry Pi

要设置 Raspberry Pi,请完成以下操作步骤:


  • 在 Raspberry Pi 上,打开终端并安装AWS CLI

  • 为传感器创建一个 Python 文件与代码,以检测人员对象是否处于特定范围(例如 30 厘米到 200 厘米)之间。如果是,播放欢迎消息,在指定时段内(例如 20 秒)录制音频,而后将音频发送至 Amazon S3。具体请参见以下示例代码。


Json


 while True:        GPIO.setmode(GPIO.BOARD)       #Setting trigger and echo pin from ultrasonic sensor        PIN_TRIGGER = 7        PIN_ECHO = 11        GPIO.setup(PIN_TRIGGER, GPIO.OUT)        GPIO.setup(PIN_ECHO, GPIO.IN)        GPIO.output(PIN_TRIGGER, GPIO.LOW)
print ("Waiting for sensor to settle") time.sleep(2)
print ("Calculating distance") GPIO.output(PIN_TRIGGER, GPIO.HIGH) time.sleep(0.00001) GPIO.output(PIN_TRIGGER, GPIO.LOW) while GPIO.input(PIN_ECHO)==0: pulse_start_time = time.time() while GPIO.input(PIN_ECHO)==1: pulse_end_time = time.time() pulse_duration = pulse_end_time - pulse_start_time print(pulse_end_time) print(pulse_end_time) #Calculating distance in cm based on duration of pulse. distance = round(pulse_duration * 17150, 2) print ("Distance:",distance,"cm")

if 30 <= distance <= 200: cmd = "ffplay -nodisp -autoexit /home/pi/Downloads/greetings.mp3" print ("Starting Recorder") os.system(cmd) #Recording for 20 seconds, adding timestamp to the filename and sending file to S3 cmd1 ='DATE_HREAD=$(date "+%s");arecord /home/pi/Desktop/$DATE_HREAD.wav -D sysdefault:CARD=1 -d 20 -r 48000;aws s3 cp /home/pi/Desktop/$DATE_HREAD.wav s3://homeautomation12121212' os.system(cmd1)
else: print ("Nothing detected")
复制代码


  • 运行 Python 文件。


超声波传感器会不断寻找正接近您家附近的人员。当检测到有人时,扬声器会播放欢迎消息并要求访客开始录音。录音随后会被发送到 Amazon S3。


如果您的扬声器与麦克风接入多个设备,例如 HDMI 与 USB,请配置asoundrc文件。

测试解决方案

将 Raspberry Pi 放置在您家中能够感知到他人并录制音频的位置。


当该人出现在 Raspberyy Pi 面前时,他们应该听到欢迎消息。他们可以在录制音频后离开,而您能够收到由录制音频转录而成的文本短信。

总结

本文展示了如何使用 AWS 服务构建安全的语音到文本通知解决方案。如果您在未来的应用场景中需要使用多种不同语言,将语音内容转换为文本,则可以直接集成这套解决方案。如果您有任何问题或者意见,请在评论区中与我们交流。


作者介绍


Vikas Shah


Amazon Web Services 公司企业级解决方案架构师。他是一位技术爱好者,乐于帮助客户为复杂的业务挑战找到创新型解决方案。他对机器学习、物联网、机器人技术以及存储抱有浓厚兴趣。在业余时间,Vikas 喜欢组装机器人、远足和旅行。


Anusha Dharmalingam


Amazon Web Services 公司解决方案架构师。她对应用程序开发与大数据解决方案充满热情。Anusha 与企业客户合作,帮助他们设计、构建并扩展用于实现业务目标的应用程序。


本文转载自亚马逊 AWS 官方博客。


原文链接


使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统


2020-09-13 10:001208

评论

发布
暂无评论
发现更多内容

NLP 入门导论

小付聊测试

AI 入门 nlp

软件测试 | 安装PyMySQL

测吧(北京)科技有限公司

行业实践专栏上线|互娱领域专家解读 Flink 企业应用实践

Apache Flink

大数据 flink 实时计算

一周狂赚50万,GPT-4帮你在线“脱单”,AI女友按分钟收费,男友高达数量1000+

加入高科技仿生人

人工智能 AI 低代码 ChatGPT GPT-4

20 分钟搭建互动教室,实现多人实时互动白板协作丨RTE 开发实战课 • 第三期

声网

我以为我对Mysql很熟,直到遇到了阿里这份笔记

做梦都在改BUG

Java MySQL 数据库

华为数据中心产业论坛 | 打造低碳、绿色数据中心,构建新型数字产业能源基础设施

Geek_2d6073

创建各种类型的3D模型:Rhino 7中文激活版

真大的脸盆

Mac Mac 软件 三维建模 建模软件 3d建模

一图看懂一体化数据安全平台 uDSP

原点安全

数据治理 数据安全 数据安全法 信息泄露 个人信息安全

如何简单快捷的使用上ChatGPT?

Ricky

人工智能 openai ChatGPT

碉堡了!阿里架构师手打的Java10W字面经,已经助我拿了6个offer

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

时序数据库中的乱序问题-写不动的老程序员带你解读

Greptime 格睿科技

云原生 时序数据库 国产时序数据库 乱序数据

明道云开放日上海站开启报名

明道云

一文看懂THD布局要求

华秋PCB

PCB 布局 PCB设计 布线 波峰焊

飞桨EasyDL月刊:4月功能全新升级,模型训练步骤缩短63%

飞桨PaddlePaddle

飞桨 EasyDL

YMatrix 5.0 故障自动转移功能新实现,运维更方便!

YMatrix 超融合数据库

数据库 时序数据库 超融合数据库 YMatrix

声网自研编码器 a264 & a265:更优画质更低能耗,进一步适配实时互动场景需求

声网

低代码开发平台 重塑数字医疗生产力

力软低代码开发平台

2023升级版Java面试八股文核心笔记,7天内拿下那该死的offer

开心学Java

Java 面试 java面试 Java八股文

openEuler 成功适配 LeapFive InFive Poros 开发板

openEuler

Linux 操作系统 openEuler 开发板 risc-v

Amazon EKS 上有状态服务启用存储加密

亚马逊云科技 (Amazon Web Services)

亚马逊云科技

MatrixGate 5.0 性能再升级,加载速度提升三倍!

YMatrix 超融合数据库

数据库 开源数据库 超融合数据库

分库分表的 21 条法则,hold 住!

小小怪下士

Java MySQL 程序员 分库分表

山东移动:全业务域核心系统升级,实现大幅降本增效

OceanBase 数据库

数据库 oceanbase

IPv6 无状态地址如何自动配置?

天翼云开发者社区

IP 网络

VictoriaMetrics常见性能问题排查

天翼云开发者社区

vm 架构设计

深入理解 synchronized 的锁升级

做梦都在改BUG

Java synchronized 锁升级

软件测试 | SQLite管理工具

测吧(北京)科技有限公司

测试

软件测试 | 配置MySQL

测吧(北京)科技有限公司

测试

共享电动车制造的厂家有哪些?要注意什么

共享电单车厂家

共享电动车厂家 共享电单车生产 共享电动车制造 本铯电动车厂家

MySQL的varchar存储原理:InnoDB记录存储结构

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统_大数据_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章