QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

使用 Amazon Comprehend 训练自定义文档分类器

  • 2019-10-16
  • 本文字数:1395 字

    阅读完需:约 5 分钟

使用 Amazon Comprehend 训练自定义文档分类器

Amazon Comprehend 让您能够大规模处理自然语言文本(更多信息请参阅我的介绍文章 Amazon Comprehend – Continuously Trained Natural Language Processing)。在 2017 年底推出并提供英语和西班牙支持后,我们增加了多项以客户为中心的功能,包括异步批处理操作语法分析、支持更多语言(法语、德语、意大利语和葡萄牙语)以及在更多区域开放。


Comprehend 采用自动机器学习 (AutoML) 技术,可让您使用已经拥有的数据创建自定义的自然语言处理 (NLP) 模型,无需深入了解机器学习。根据您的数据集和使用案例不同,它会自动选择正确的算法,调整参数,编译并测试得出的模型。


如果您已经(通过 Amazon Transcribe、论坛帖子等等)拥有一组标记文档,例如持工单、联络中心对话等,您可以将这些文档作为起点。在这种情况下,标记仅指您已经检查了每份文档,并以期望的方式添加了标签以说明其特征。每个标签至少需要 50 个文档才能使用自定义分类功能,如果有数百个甚至输给签个文档当然更好。


在此博文中,我将重点介绍自定义分类,并将演示如何对模型进行训练以区分干净的文本和包含脏话的文本。然后我将演示如何使用模型来对新文本进行分类。

分类器的使用

首先我将使用一个与以下类似的 CSV 训练文本文件(我将所有文本进行了遮盖处理;但其中确实有许多的脏话):



训练数据必须位于 S3 对象中,每行一个标签和一个文档:



然后我会导航至 Amazon Comprehend 控制台并单击 分类。我还没有任何现有的分类器,因此我会单击 Create classifier 来创建一个:



我会给我的分类器命名并选择文档语言,选择我的训练数据所在的 S3 存储桶,然后创建一个拥有该存储桶访问权限的 AWS Identity and Access Management (IAM) 角色。然后我会单击 Create classifier 继续:



训练将会立即开始:



状态将会在几分钟内变为 Trained ,现在我已经做好准备,可以创建一个分析作业来对一些文本进行分类,其中一些文本可能含有脏话:



我将此文本放入另一个 S3 存储桶,在控制台中单击 分析 ,然后单击 Create job 。然后我会为作业命名,“Analysis type”选择“Custom classification”,然后选择我刚刚创建的分类器。我还会选择输入存储桶(上述文件)以及将用于接收结果的另一个存储桶,根据新创建的分类器分类,然后单击 Create job 继续(重要安全提示:如果您使用同一个 S3 存储桶来存储源和目标,请务必通过名称来引用输入文件):



作业会立即开始,只需几分钟就会完成:



结果将存储在我在创建作业时选择的 S3 存储桶中:



每行输出都对应输入文件中的一个文档:



下面是一行的详细显示:


Json


{   "File":"profanity_test.csv",   "Line":"0",   "Classes":[      {         "Name":"PROFANITY",         "Score":1.0      },      {         "Name":"NON_PROFANITY",         "Score":0.0      }   ]}
复制代码


可以看出,新推出的分类服务十分强大,使用非常方便。我可以在分钟内得到十分有用的高质量结果,无需任何机器学习的知识。


此外,您还可以使用 Amazon Comprehend CLIAmazon Comprehend API 来训练和测试模型。

现已推出

Amazon Comprehend 分类服务现已在所有提供 Comprehend 的区域开放。


作者介绍:


!



Jeff Barr
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


原文链接:


https://amazonaws-china.com/cn/blogs/china/new-train-custom-document-classifiers-with-amazon-comprehend/


2019-10-16 11:16830
用户头像

发布了 1855 篇内容, 共 122.1 次阅读, 收获喜欢 79 次。

关注

评论

发布
暂无评论
发现更多内容

一文搞懂UART通信协议

不脱发的程序猿

嵌入式 串口通信 UART

《小米创业思考》之二:互联网简史

郭明

读书笔记

SAP UI5 的规则构建器控件介绍

汪子熙

JavaScript SAP SAP UI5 ui5 9月月更

数据治理(八):Atlas集成Hive

Lansonli

数据治理 9月月更

产品经理的进阶指南

产品海豚湾

产品经理 产品设计 职业发展 职业道路 9月月更

白话讲解创建型设计模式:单例、原型,构建

山河已无恙

9月月更

C++学习------cinttypes头文件的源码学习

桑榆

c++ 源码阅读 9月月更

SD-WAN组网场景概览

阿泽🧸

SD-WAN 9月月更

详解AUTOSAR:AUTOSRA软件架构(理论篇—2)

不脱发的程序猿

汽车电子 嵌入式开发 AUTOSAR

库调多了,都忘了最基础的概念-HashMap篇

知识浅谈

HashMap底层原理 9月月更

JSON之父:10天赶工出的JavaScript,最好的归宿就是让它退役

图灵社区

JavaScript 编程 程序员

这一刻,听见华为FTTR的星光四重奏

脑极体

黑石创始人,在初入职场时,用这三个问题来开场。

叶小鍵

VUE 如何将父组件中的数据传递到子组件中

HoneyMoose

【运营下班指南】有人准点下班,有人凌晨搬砖

HarmonyOS SDK

分析

你真的会使用C语言中的 “ 操作符 ” 吗?

Albert Edison

C语言 开发语言 操作符 9月月更

详解AUTOSAR:AUTOSAR方法论(理论篇—3)

不脱发的程序猿

汽车电子 嵌入式开发 AUTOSAR方法论

微信小程序,Python爬虫抓包采集实战,采集某成考题库小程序

梦想橡皮擦

Python 9月月更

2022-09-05:作为国王的统治者,你有一支巫师军队听你指挥。 :给你一个下标从 0 开始的整数数组 strength , 其中 strength[i] 表示第 i 位巫师的力量值。 对于连续的一

福大大架构师每日一题

算法 rust 福大大

面试突击80:说一下 Spring 中 Bean 的生命周期?

王磊

Java 面试题

Flink 资料集

Joseph295

Java加密技术(四)非对称加密算法RSA

No Silver Bullet

RSA密码 9月月更 非对称加密算法

连接与计算无处不在,火山引擎新一代边缘云

火山引擎边缘云

云原生 CDN 边缘计算 火山引擎 边缘云

JSON 之父:10 天赶工出的 JavaScript,最好的归宿就是让它退役

图灵教育

JavaScript 程序员 代码

mysql之事务

急需上岸的小谢

9月月更

嵌入式Linux:安装Ubuntu系统环境

不脱发的程序猿

Linux 嵌入式Linux Ubuntu系统环境

数字藏品NFT电商交易平台:APP系统开发

开源直播系统源码

NFT 数字藏品 数字藏品开发 数字藏品系统

使用 Mypy 检查 30 万行 Python 代码,总结出 3 大痛点与 6 个技巧!

Python猫

Python

C++ STL容器详解【三万字超详细讲解】

Fire_Shield

c++ stl 9月月更

论构建智能运维的先决条件

穿过生命散发芬芳

智能运维 9月月更

守护园区安全安全解决方案亮相

创意时空

使用 Amazon Comprehend 训练自定义文档分类器_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章