HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

  • 2020-03-01
  • 本文字数:1652 字

    阅读完需:约 5 分钟

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

我们在 AWS re:Invent 2017 上推出Amazon Transcribe,这是一项自动语音识别 (ASR) 服务,可让 AWS 客户轻松地为其应用程序添加语音转文本功能。截止到撰写本文之时,Transcribe 支持 31 种语言其中 6 种可以实现实时转录。


客户呼叫(呼叫中心、电话销售等)的自动转录是 Transcribe 使用最广的使用案例,有助于为下游分析和自然语言处理任务(例如情感分析)构建数据集。因此,应删除任何个人身份信息 (PII),保护客户隐私并遵守当地法律和法规。


可以想象,手动执行这项操作非常繁琐、耗时而且容易出错,因此 Amazon Transcribe 现在推出了支持对 PII 进行密文标记的功能。

Amazon Transcribe 现推出内容密文标记功能

如果按照说明进行操作,Transcribe 将自动识别以下 PII 信息:


  • 社会安全号码、

  • 信用卡/借记卡号、

  • 信用卡/借记卡到期日期、

  • 信用卡/借记卡 CVV 码、

  • 银行账号、

  • 银行电汇编码、

  • 借记卡/信用卡 PIN、

  • 姓名、

  • 电子邮件地址、

  • 电话号码(10 位数字)、

  • 邮寄地址。


在转录的文本中,会将它们替换为一个“[PII]”标签。您还将获得一个密文标记置信度得分(而不是通常的 ASR 得分)以及开始和结束时间戳。这些时间戳将帮助您在音频文件中找到 PII,以进行安全存储和共享,或进行其他音频处理以在源文件中对其进行密文标记处理。


这一功能非常简单易用,我们来做一个快速演示。

使用 Amazon Transcribe 对个人信息进行密文标记

首先,我录制了一个简短的包含个人信息的音频文件(当然,内容都是假的)。我这里使用的是 mp3 格式,但是我们建议您使用 FLAC 或 WAV 等无损格式,以确保准确性达到最高。


00:00
00:00


然后,我使用 AWS CLIS3 存储桶。


$ aws s3 cp julien.mp3 s3://jsimon-transcribe-us-east-1


接下来,使用 StartTranscriptionJob API 转录这个音频文件:为什么这次不使用 适用于 PHP 的 AWS 开发工具包呢?


PHP


<?phprequire 'aws.phar';
use Aws\TranscribeService\TranscribeServiceClient;
$client = new TranscribeServiceClient([ 'profile' => 'default', 'region' => 'us-east-1', 'version' => '2017-10-26']);
$result = $client->startTranscriptionJob([ 'LanguageCode' => 'en-US', 'Media' => [ 'MediaFileUri' => 's3://jsimon-transcribe-us-east-1/julien.mp3', ], 'MediaFormat' => 'mp3', 'OutputBucketName' => 'jsimon-transcribe-us-east-1', 'ContentRedaction' => [ 'RedactionType' => 'PII', 'RedactionOutput' => 'redacted' ], 'TranscriptionJobName' => 'redaction']);?>
复制代码


一个 API 调用即可搞定。我可以使用 RedactionOutput参数来控制是想要完整的和经过密文标记的输出,还是只想要经过密文标记的输出。我选择了后者。现在,我们来运行以下脚本。


$ php transcribe.php


我立刻就可以看到在 Transcribe 控制台中运行的作业。



我还可以使用 GetTranscriptionJobListTranscriptionJobs API 来检查是否已对内容进行了密文标记。作业完成后,我只需从 S3 存储桶中提取转录内容即可。


$ aws s3 cp s3://jsimon-transcribe-us-east-1/redacted-redactiontest.json .


转录内容是一个 JSON 文档,包含每个单词的详细信息。在这里,我只想要完整的转录内容,因此我使用了一个名为 jq 的开源工具来过滤文档,它很好用。


$ cat redacted-redactiontest.json| jq '.results.transcripts'


[``{


"transcript": "Good morning, everybody.My name is [PII], and today I feel like sharing a whole lot of personal information with you.Let's start with my Social Security number [PII].My credit card number is [PII] And my C V V code is [PII] My bank account number is [PII] My email address is [PII], and my phone number is [PII].Well, I think that's it.You know a whole lot about me.And I hope that Amazon transcribe is doing a good job at redacting that personal information away.Let's check."


}``]


Amazon Transcribe 非常好用。我的隐私得到安全保护。


2020-03-01 21:41691

评论

发布
暂无评论
发现更多内容

2020最后一天! 我为大家准备一份Android 面试知识点大全迎接2021新的一年

android 程序员 移动开发

37岁Android程序员裸辞,四个月被497家公司拒绝,问猎头后懵了

android 程序员 移动开发

2020最新GitHub-上-10-个顶级开源项目,2021最新大厂Android面试集合

android 程序员 移动开发

2021应届秋招:提前批挂后,二次面试字节跳动抖音Android客户端

android 程序员 移动开发

2021高校生疫情过后 ,字节跳动Android开发岗-高级技术面试题!

android 程序员 移动开发

30岁,程序员,烦透了,淘汰了80%的Android面试者

android 程序员 移动开发

5G时代已经到来了,你还觉得Android行业凉了嘛?,flutter真机调试不会自动安装

android 程序员 移动开发

6年老Android2019面经总结,Android面试必刷的200道真题

android 程序员 移动开发

2021 最新Android常见知识体系,HR:,Android进程管理

android 程序员 移动开发

2,ndk开发教程

android 程序员 移动开发

30多个超赞的Android开发者工具,2021年京东Android岗面试必问

android 程序员 移动开发

2021 提升Android开发效率的实战技巧,女生学移动应用开发

android 程序员 移动开发

2021新鲜面经,蚂蚁内部转岗Android面试分享,2021最新Android面试题及答案

android 程序员 移动开发

20分钟掌握Android-Gradle,android程序基础教程

android 程序员 移动开发

30岁程序员面临的困境,IDEA太强悍了

android 程序员 移动开发

35岁以上的Android开发,都去了哪儿?,附赠复习资料

android 程序员 移动开发

35岁没有晋级的同事都去哪了?,Android这些高端技术只有你还不知道

android 程序员 移动开发

5道刁钻的Activity生命周期面试题,学完去吊打面试官!

android 程序员 移动开发

2020荒诞的一年,35岁程序员现状:我现在房贷车贷家庭,android游戏开发大全

android 程序员 移动开发

架构实战营1期毕业总结

tt

架构实战营

24岁程序员一事无成,迷茫焦虑,想知道该怎样从现状走出来

android 程序员 移动开发

35岁程序员:职场中的中年危机,一文说清

android 程序员 移动开发

5分钟看完这篇-HTTPS面试常问全解析,不管去哪里面试都能轻松装13!

android 程序员 移动开发

2020这一年的Android面经汇总(百度、腾讯、滴滴,移动端跨平台开发方案

android 程序员 移动开发

2021年之Android面经分享(已获头条、顺丰,html5移动端

android 程序员 移动开发

30秒上手新一代Http请求神器RxHttp,androidstudio连接手机

android 程序员 移动开发

35岁程序员(媛)被迫辞职后,android项目开发总结报告

android 程序员 移动开发

5个月前,如果你没有不屑于刷这份《字节内推,独家发布

android 程序员 移动开发

iOS开发:平时做项目经常用到的快捷键归纳

三掌柜

11月日更

2020每一位Android开发者应该知道,Android体系架构和开发库,没有干货你打我

android 程序员 移动开发

王者荣耀商城异地多活架构设计

Sky

「架构实战营」

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能_行业深度_AWS_InfoQ精选文章