写点什么

Amazon Comprehend 发布异步批处理操作

  • 2019-10-21
  • 本文字数:1864 字

    阅读完需:约 6 分钟

Amazon Comprehend 发布异步批处理操作

我的同事 Jeff Barr 最近写了一篇关于 Amazon Comprehend 的文章,这是一项用于发现文本中的见解和关系的服务,在 2017 年的 AWS re:Invent 大会上发布。如今,在反复研究客户反馈之后,我们将发布适用于 Comprehend 的全新异步批量推理功能。异步批处理操作可处理存储在 Amazon Simple Storage Service (S3) 存储桶中的文档,并可执行所有常规 Comprehend 操作,例如实体识别、关键短语提取、情绪分析和语言检测。与单文档 API 和批处理 API 相比,这些新的异步批处理 API 支持的文档要大得多,从而减少了客户截断文档以获取服务的需求。当然,所有单文档 API 和批处理同步 API 操作仍可用于提供实时结果。通过增加异步操作,开发人员可以选择最适合其应用程序的工具。让我们深入了解一下这一新型 API。

异步 API 操作

新的批处理 API 遵循与 Amazon Comprehend 的 TopicDetection API 相同的异步调用结构。在分析一系列文档时,我们首先要调用某个 Start* API,例如 StartDominantLanguageDetectionJobStartEntitiesDetectionJobStartKeyPhrasesDetectionJobStartSentimentDetectionJob


这些 API 中的每一个都采用 InputDataConfig 和 OutputDataConfig,用以指定传入数据的格式和位置,以及相关结果应存储在 S3 的哪个位置。InputDataConfig 用于指定应将输入数据视为每个文件一个文档还是每行一个文档。


另外,我们还可以给任务命名并添加一个用于同步用途的唯一请求标识符。如果我们不提供这些信息,Comprehend 服务将自动生成它们。


在撰写本文时,对于实体和关键短语检测、语言检测及情绪检测,异步操作支持的最大单个文档大小分别为 100KB、1MB 和 5KB。批处理中所有文件的总大小必须小于 5GB,而且对于每个批次,我们提交的单独文件数不能超过 100 万个。


现在我们已经了解了 API 的功能,接下来我们来看看更新后的控制台并启动任务!

Amazon Comprehend 分析控制台

首先,我将导航到 AWS 管理控制台并打开 Amazon Comprehend。接下来,我将选择新的分析控制台。



在此,我可以单击控制台右上角的“创建”按钮来创建一个新的分析任务。我将创建一个实体检测任务并选择英语作为我的文档语言。然后,我会指示控制台选择一些示例数据。



现在,我将配置输出数据的位置,并确保所选服务角色有权访问该 S3 存储桶。然后,我将启动任务!



在如下页面上,我可以看到在控制台中启动的操作,并可等到操作完成后再查看详细结果。



在任务页面上,我可以看到任务的状态和输出位置。如果我从 S3 位置下载结果,则可以查看示例文本中检测到的实体。



在这里,我已截断结果,但大多数情况下它们如下所示:


Json


{  "Entities": [    {      "BeginOffset": 875,      "EndOffset": 899,      "Score": 0.9936646223068237,      "Text": "University of California",      "Type": "ORGANIZATION"    },    {      "BeginOffset": 903,      "EndOffset": 911,      "Score": 0.9519965648651123,      "Text": "Berkeley",      "Type": "LOCATION"    },    {      "BeginOffset": 974,      "EndOffset": 992,      "Score": 0.9981470108032227,      "Text": "Christopher Monroe",      "Type": "PERSON"    },    {      "BeginOffset": 997,      "EndOffset": 1010,      "Score": 0.9992995262145996,      "Text": "Mikhail Lukin",      "Type": "PERSON"    },    {      "BeginOffset": 1095,      "EndOffset": 1099,      "Score": 0.9990954399108887,      "Text": "2017",      "Type": "DATE"    }  ],  "File": "Sample.txt",  "Line": 8}
复制代码


很酷吧!我们可以通过类似的步骤进行情感检测或关键短语检测。由于我们可以在一个批次中提交多达 5GB 的数据,因此客户将花费较少的时间来转换和截断文档。


我个人推荐使用 AWS Step Functions 之类的工具,以编程方式检查任务状态。设置和构建编程分析管道非常简单。



正如我们在 Roy Hasson 撰写的这篇博客文章中提到的,您还可以使用 AWS Glue 将 Comprehend 作为您常规 ETL 操作的一部分加以调用。

附加信息

您可以在该文档中找到有关这些新 API 的详细信息,并了解有关限制和最佳实践的更多信息。


如前所述,同步批处理 API 仍然可用,并且适合用于较小的文档集和较小的文档。


和往常一样,欢迎随时在这里或在 Twitter 上分享您的反馈。


作者介绍:


Randall Hunt


AWS 全球高级布道师。此前供职于 NASA, SpaceX 及 MongoDB。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-comprehend-launches-asynchronous-batch-operations/


2019-10-21 08:00748

评论

发布
暂无评论
发现更多内容

Logic Pro X(苹果专业音频制作软件)v10.7.8中文版

Rose

苹果mac软件下载 Logic Pro X下载 Logic Pro X破解 Logic Pro X教程 音频制作软件

耕升 GeForce RTX 4060 Ti 系列,为玩家带来DLSS3+1080P光追游戏体验!

Geek_2d6073

常用的表格检测识别方法——表格结构识别方法(上)

合合技术团队

人工智能 深度学习 算法 人工智能文字识别 表格检测

Elasticsearch与Clickhouse数据存储对比 | 京东云技术团队

京东科技开发者

数据库 elasticsearch Clickhouse 企业号 5 月 PK 榜

混沌演练实践(二)-支付加挂链路演练 | 京东云技术团队

京东科技开发者

微服务 混沌工程 混沌工程实践 企业号 5 月 PK 榜

Flutter三棵树系列之详解各种Key | 京东云技术团队

京东科技开发者

flutter key 企业号 5 月 PK 榜 localkey

最高奖金100万!第二届广州·琶洲算法大赛火热报名中

飞桨PaddlePaddle

百度飞桨 算法大赛

什么是 Final Cut Pro? fcpx视频剪辑下载安装

Rose

Final Cut Pro下载 Final Cut Pro破解版 FCPX软件 fcpx Mac视频剪辑软件

阿里巴巴亿级并发系统设计手册已开源(2023 最新版)震撼来袭

架构师之道

Java 高并发

龙博机电:90后“厂二代”,靠伙伴云零代码让中小制造业实现数字化“逆袭”

联营汇聚

升级正当时,高性价比的影驰 GeForce RTX™ 4060 Ti 8G开箱评测

Geek_2d6073

基于 Log 的通用增量 Checkpoint 在美团的进展

Apache Flink

大数据 flink 实时计算

SpringBoot + Docker 实现一次构建到处运行

Java你猿哥

Java Docker Spring Boot ssm 容器化部署

深度学习基础入门篇-序列模型:[11]:循环神经网络 RNN、长短时记忆网络LSTM、门控循环单元GRU原理和应用详解

汀丶人工智能

人工智能 深度学习 RNN LSTM GRU

3天速成!阿里人私用的Netty速成实战手册,3天Github星标11.5k

Java你猿哥

Java 源码 Netty ssm netty内存管理

深度学习进阶篇-预训练模型[1]:预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解

汀丶人工智能

人工智能 深度学习 预训练模型 Transformer ELMo

企业研发效能度量利器,华为云发布CodeArts Board看板服务

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

Ableton Live Suite 11破解版下载 音乐制作软件

Rose

音乐制作 Ableton Live 11中文版 Live Suite 11破解 Ableton Live Suite下载

有哪些好用的企业即时通讯软件值得推荐?

BeeWorks

WorkPlus AI助理 | 将企业业务场景与ChatGPT结合

BeeWorks

2023最新版Java面试八股文大全(附各大厂面试真题及答案)

采菊东篱下

java面试

Scrum的三个工件(产品Backlog、Sprint Backlog、产品增量 )

顿顿顿

Scrum 敏捷 敏捷开发管理 敏捷开发管理工具

视频后期特效处理软件:Motion 5 最新中文激活版

真大的脸盆

Mac Mac 软件 视频特效合成 视频特效工具 特效合成

2023年,Flutter3.10版本的变化有哪些?

没有用户名丶

小程序容器

内部开发者平台|自建还是购买,企业应如何选择?

SEAL安全

平台工程 企业号 5 月 PK 榜 内部开发平台

PoseiSwap IDO在Bounce上启动在即,如何参与?

鳄鱼视界

CloudQuery v2.0.0 发布 新增数据保护、数据变更、连接管理等功能

BinTools图尔兹

数据库 国产数据库 版本发布

直击灵魂!美团大牛手撸并发原理笔记,由浅入深剖析JDK源码

做梦都在改BUG

Java 并发编程 多线程 jdk源码

以敏捷性为目标,构建良好企业生态

智达方通

数据驱动 数据孤岛 智达方通 全面预算管理 数据分析系统

PoseiSwap IDO在Bounce上启动在即,如何参与?

西柚子

1.5万字+30张图盘点程序员面试必会MySQL索引常见的11个知识点

Java你猿哥

Java MySQL 数据 ssm 索引

Amazon Comprehend 发布异步批处理操作_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章