写点什么

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

  • 2020-03-01
  • 本文字数:1652 字

    阅读完需:约 5 分钟

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

我们在 AWS re:Invent 2017 上推出Amazon Transcribe,这是一项自动语音识别 (ASR) 服务,可让 AWS 客户轻松地为其应用程序添加语音转文本功能。截止到撰写本文之时,Transcribe 支持 31 种语言其中 6 种可以实现实时转录。


客户呼叫(呼叫中心、电话销售等)的自动转录是 Transcribe 使用最广的使用案例,有助于为下游分析和自然语言处理任务(例如情感分析)构建数据集。因此,应删除任何个人身份信息 (PII),保护客户隐私并遵守当地法律和法规。


可以想象,手动执行这项操作非常繁琐、耗时而且容易出错,因此 Amazon Transcribe 现在推出了支持对 PII 进行密文标记的功能。

Amazon Transcribe 现推出内容密文标记功能

如果按照说明进行操作,Transcribe 将自动识别以下 PII 信息:


  • 社会安全号码、

  • 信用卡/借记卡号、

  • 信用卡/借记卡到期日期、

  • 信用卡/借记卡 CVV 码、

  • 银行账号、

  • 银行电汇编码、

  • 借记卡/信用卡 PIN、

  • 姓名、

  • 电子邮件地址、

  • 电话号码(10 位数字)、

  • 邮寄地址。


在转录的文本中,会将它们替换为一个“[PII]”标签。您还将获得一个密文标记置信度得分(而不是通常的 ASR 得分)以及开始和结束时间戳。这些时间戳将帮助您在音频文件中找到 PII,以进行安全存储和共享,或进行其他音频处理以在源文件中对其进行密文标记处理。


这一功能非常简单易用,我们来做一个快速演示。

使用 Amazon Transcribe 对个人信息进行密文标记

首先,我录制了一个简短的包含个人信息的音频文件(当然,内容都是假的)。我这里使用的是 mp3 格式,但是我们建议您使用 FLAC 或 WAV 等无损格式,以确保准确性达到最高。


00:00
00:00


然后,我使用 AWS CLIS3 存储桶。


$ aws s3 cp julien.mp3 s3://jsimon-transcribe-us-east-1


接下来,使用 StartTranscriptionJob API 转录这个音频文件:为什么这次不使用 适用于 PHP 的 AWS 开发工具包呢?


PHP


<?phprequire 'aws.phar';
use Aws\TranscribeService\TranscribeServiceClient;
$client = new TranscribeServiceClient([ 'profile' => 'default', 'region' => 'us-east-1', 'version' => '2017-10-26']);
$result = $client->startTranscriptionJob([ 'LanguageCode' => 'en-US', 'Media' => [ 'MediaFileUri' => 's3://jsimon-transcribe-us-east-1/julien.mp3', ], 'MediaFormat' => 'mp3', 'OutputBucketName' => 'jsimon-transcribe-us-east-1', 'ContentRedaction' => [ 'RedactionType' => 'PII', 'RedactionOutput' => 'redacted' ], 'TranscriptionJobName' => 'redaction']);?>
复制代码


一个 API 调用即可搞定。我可以使用 RedactionOutput参数来控制是想要完整的和经过密文标记的输出,还是只想要经过密文标记的输出。我选择了后者。现在,我们来运行以下脚本。


$ php transcribe.php


我立刻就可以看到在 Transcribe 控制台中运行的作业。



我还可以使用 GetTranscriptionJobListTranscriptionJobs API 来检查是否已对内容进行了密文标记。作业完成后,我只需从 S3 存储桶中提取转录内容即可。


$ aws s3 cp s3://jsimon-transcribe-us-east-1/redacted-redactiontest.json .


转录内容是一个 JSON 文档,包含每个单词的详细信息。在这里,我只想要完整的转录内容,因此我使用了一个名为 jq 的开源工具来过滤文档,它很好用。


$ cat redacted-redactiontest.json| jq '.results.transcripts'


[``{


"transcript": "Good morning, everybody.My name is [PII], and today I feel like sharing a whole lot of personal information with you.Let's start with my Social Security number [PII].My credit card number is [PII] And my C V V code is [PII] My bank account number is [PII] My email address is [PII], and my phone number is [PII].Well, I think that's it.You know a whole lot about me.And I hope that Amazon transcribe is doing a good job at redacting that personal information away.Let's check."


}``]


Amazon Transcribe 非常好用。我的隐私得到安全保护。


2020-03-01 21:41708

评论

发布
暂无评论
发现更多内容

一篇文章深入理解分布式锁

itlemon

redis 分布式锁

阿里内推面试,挂在了一道简单的问题上…

小新

Java 阿里巴巴 程序员 架构 面试

老龄化时代的人机共生:京东数科以AI机器人推动产业增长

脑极体

阿里P7岗位面试,面试官问我:为什么HashMap底层树化的标准元素个数是8

鄙人薛某

Java 面试 hashmap 哈希

让你大显身手——掌握RocketMQ与Kafka中如何实现事务

小谈

kafka 面试 RocketMQ JVM原理

最强总结——分布式事务处理方式

小闫

面试 分布式 分布式锁 分布式存储 分布式缓存

打造Redis分布式环境下的银弹?我觉得Redisson比Redlock更胜一筹

码农月半

Java redis redis高可用 Redis项目

这份架构PDF如何得到百度、洋码头、饿了么CTO等大咖联袂推荐?

小新

Java 架构 面试 队列

第五周总结

武鹏

Week5 学习总结

wyzwlj

极客大学架构师训练营

week5

Geek_2e7dd7

架构师训练营 - 第 5 周命题作业

红了哟

码农必备SQL高性能优化指南!35+条优化建议立马get

码哥小胖

MySQL SQL语法 sql查询 sql

【week05】总结

chengjing

程序员是这样解读《隐秘的角落》

陈东泽 EuryChen

学习 程序员 隐秘的角落

最右JS2Flutter框架——开篇(一)

刘剑

flutter 大前端 探索与实践

week5 学习总结

Geek_2e7dd7

架构师训练营 - 第 5 周学习总结

红了哟

深入理解队列:LinkedBlockingQueue源码深度解析

itlemon

阻塞队列 LinkedBlockingQueue Queue

【week05作业】

chengjing

Uniapp使用GoEasy实现websocket实时通讯

GoEasy消息推送

uni-app websocket 即时通讯

公司制的黄昏:区块链重构商业世界

CECBC

区块链思维 裂变 契约 激励

啃碎并发(一):Java线程总述与概念

猿灯塔

正确的做事比做正确的事更重要

魔曦

架构师 极客大学架构师训练营

Spring Boot 多数据源 Redis 配置

南南

redis 面试 Spring Boot Redis作者

架构师训练营 - 第五周命题作业

牛牛

极客大学架构师训练营 命题作业 一致性Hash算法

架构师训练营 一致性Hash算法Java实现

Cloud.

记录一次拼多多Web前端面试【一面+二面+hr面】

阿文

面试 Spring Cloud Spring Boot Web

20道Redis面试题(含答案)面试官会问的我都找到了

你是人间四月天

redis 面试 Spring Cloud redis6.0.0 Redis项目

搞懂Spring事务失效的8大原因,轻轻松松面试过关

码哥小胖

Java spring Spring Boot

产业区块链发展迎来爆发期

CECBC

产业区块链 系统稳定性 应用安全性 信任的机器

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能_行业深度_AWS_InfoQ精选文章