写点什么

使用 Amazon Comprehend 训练自定义文档分类器

  • 2019-10-16
  • 本文字数:1395 字

    阅读完需:约 5 分钟

使用 Amazon Comprehend 训练自定义文档分类器

Amazon Comprehend 让您能够大规模处理自然语言文本(更多信息请参阅我的介绍文章 Amazon Comprehend – Continuously Trained Natural Language Processing)。在 2017 年底推出并提供英语和西班牙支持后,我们增加了多项以客户为中心的功能,包括异步批处理操作语法分析、支持更多语言(法语、德语、意大利语和葡萄牙语)以及在更多区域开放。


Comprehend 采用自动机器学习 (AutoML) 技术,可让您使用已经拥有的数据创建自定义的自然语言处理 (NLP) 模型,无需深入了解机器学习。根据您的数据集和使用案例不同,它会自动选择正确的算法,调整参数,编译并测试得出的模型。


如果您已经(通过 Amazon Transcribe、论坛帖子等等)拥有一组标记文档,例如持工单、联络中心对话等,您可以将这些文档作为起点。在这种情况下,标记仅指您已经检查了每份文档,并以期望的方式添加了标签以说明其特征。每个标签至少需要 50 个文档才能使用自定义分类功能,如果有数百个甚至输给签个文档当然更好。


在此博文中,我将重点介绍自定义分类,并将演示如何对模型进行训练以区分干净的文本和包含脏话的文本。然后我将演示如何使用模型来对新文本进行分类。

分类器的使用

首先我将使用一个与以下类似的 CSV 训练文本文件(我将所有文本进行了遮盖处理;但其中确实有许多的脏话):



训练数据必须位于 S3 对象中,每行一个标签和一个文档:



然后我会导航至 Amazon Comprehend 控制台并单击 分类。我还没有任何现有的分类器,因此我会单击 Create classifier 来创建一个:



我会给我的分类器命名并选择文档语言,选择我的训练数据所在的 S3 存储桶,然后创建一个拥有该存储桶访问权限的 AWS Identity and Access Management (IAM) 角色。然后我会单击 Create classifier 继续:



训练将会立即开始:



状态将会在几分钟内变为 Trained ,现在我已经做好准备,可以创建一个分析作业来对一些文本进行分类,其中一些文本可能含有脏话:



我将此文本放入另一个 S3 存储桶,在控制台中单击 分析 ,然后单击 Create job 。然后我会为作业命名,“Analysis type”选择“Custom classification”,然后选择我刚刚创建的分类器。我还会选择输入存储桶(上述文件)以及将用于接收结果的另一个存储桶,根据新创建的分类器分类,然后单击 Create job 继续(重要安全提示:如果您使用同一个 S3 存储桶来存储源和目标,请务必通过名称来引用输入文件):



作业会立即开始,只需几分钟就会完成:



结果将存储在我在创建作业时选择的 S3 存储桶中:



每行输出都对应输入文件中的一个文档:



下面是一行的详细显示:


Json


{   "File":"profanity_test.csv",   "Line":"0",   "Classes":[      {         "Name":"PROFANITY",         "Score":1.0      },      {         "Name":"NON_PROFANITY",         "Score":0.0      }   ]}
复制代码


可以看出,新推出的分类服务十分强大,使用非常方便。我可以在分钟内得到十分有用的高质量结果,无需任何机器学习的知识。


此外,您还可以使用 Amazon Comprehend CLIAmazon Comprehend API 来训练和测试模型。

现已推出

Amazon Comprehend 分类服务现已在所有提供 Comprehend 的区域开放。


作者介绍:


!



Jeff Barr
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


原文链接:


https://amazonaws-china.com/cn/blogs/china/new-train-custom-document-classifiers-with-amazon-comprehend/


2019-10-16 11:16802
用户头像

发布了 1852 篇内容, 共 119.6 次阅读, 收获喜欢 78 次。

关注

评论

发布
暂无评论
发现更多内容

合同管理中的常见陷阱,你是否也中招了?

天津汇柏科技有限公司

低代码 合同管理 AI 人工智能

《春江花月夜》Vivid菁彩视听版,开启一场美学视听盛宴!

最新动态

使用豆包MarsCode 实现高可用扫描工具

豆包MarsCode

人工智能 程序员 AI 开发 智能化

第三期安全AI挑战者计划-文本分类对抗攻击 第三名“我永远喜欢星野源”技术总结

阿里云天池

体育场馆LED显示屏的分类及应用

Dylan

科技 LED LED display LED显示屏 体育

助力降本增效,ByteHouse打造新一代云原生数据仓库

字节跳动数据平台

数据仓库 云原生 OLAP 降本增效

百度搜索结果波动的极致治理

百度Geek说

Seamless Video Roaming: Our Ultimate Solution Revealed!

wallyslilly

ipq9574 IPQ5332

打造全栈云自主可控体系,天翼云构筑数字安全屏障!

天翼云开发者社区

云计算 网络安全 云服务 天翼云

云灾备:云时代的数据安全

天翼云开发者社区

云计算 网络安全

批量重命名文件工具A Better Finder Attributes 7 for Mac

Mac相关知识分享

3D家庭室内设计工具Live Home 3D Pro for Mac

Mac相关知识分享

博睿数据受邀亮相NebulaGraph Meetup北京站

博睿数据

mac苹果电脑虚拟机推荐:VMware Fusion Pro for Mac 下载

你的猪会飞吗

VMware Fusion Pro VMware Fusion Pro 13 mac VMware Fusion Pro 12

一次基于AST的大规模代码迁移实践

vivo互联网技术

代码迁移 postcss 抽象语法树AST gogocode

PhotoSweeper X for Mac(重复照片清理工具)

Mac相关知识分享

Mac的文本处理软件FSNotes for mac中文免激活版

Mac相关知识分享

【程序大侠传】应用内存缓步攀升,告警如影随形

Disaster

探索MySQL中VARCHAR(255)的演变及其对数据库设计的影响

Steven

“你好BOE”即将重磅亮相上海国际光影节 这场“艺术x科技”的顶级光影盛宴不容错过!

科技汇

观测云产品更新 | 场景、基础设施、用户访问、管理等

观测云

数据分析 基础设施

华为智慧屏 V5 Max 110发布!Audio & HDR Vivid畅享菁彩视听盛宴

最新动态

精通Java并发锁机制:24种锁技巧+业务锁匹配方案(第二部分)

肖哥弹架构

Java 高并发

获取淘宝商品详情数据api接口GET请求访问权限的条件

代码忍者

API 接口 pinduoduo API

对 AI 产品定价模式的新思考:基于人数 or 工作量?

Baihai IDP

程序员 AI LLMs Baihai IDP 企业 9 月 PK 榜

共促数字经济高质量发展,天翼云出席2024 IDC中国年度盛典!

天翼云开发者社区

云计算 IDC 天翼云

如何基于云产品搭建一个高可用性的网站

天翼云开发者社区

云计算

Simplemind pro for Mac(mac上的思维导图软件) 中文版

Mac相关知识分享

Go 必知必会:掌握Go语言的流程控制,构建逻辑与决策的基石

王中阳Go

流程控制 流程控制语句 GO语言编程

网络编程入门如此简单(四):一文搞懂localhost和127.0.0.1

JackJiang

即时通讯;IM;网络编程

【行业知识】跨境电商怎么定义?需要用堡垒机吗?

行云管家

等保 堡垒机 跨境电商

使用 Amazon Comprehend 训练自定义文档分类器_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章