写点什么

Amazon Comprehend 发布异步批处理操作

  • 2019-10-21
  • 本文字数:1864 字

    阅读完需:约 6 分钟

Amazon Comprehend 发布异步批处理操作

我的同事 Jeff Barr 最近写了一篇关于 Amazon Comprehend 的文章,这是一项用于发现文本中的见解和关系的服务,在 2017 年的 AWS re:Invent 大会上发布。如今,在反复研究客户反馈之后,我们将发布适用于 Comprehend 的全新异步批量推理功能。异步批处理操作可处理存储在 Amazon Simple Storage Service (S3) 存储桶中的文档,并可执行所有常规 Comprehend 操作,例如实体识别、关键短语提取、情绪分析和语言检测。与单文档 API 和批处理 API 相比,这些新的异步批处理 API 支持的文档要大得多,从而减少了客户截断文档以获取服务的需求。当然,所有单文档 API 和批处理同步 API 操作仍可用于提供实时结果。通过增加异步操作,开发人员可以选择最适合其应用程序的工具。让我们深入了解一下这一新型 API。

异步 API 操作

新的批处理 API 遵循与 Amazon Comprehend 的 TopicDetection API 相同的异步调用结构。在分析一系列文档时,我们首先要调用某个 Start* API,例如 StartDominantLanguageDetectionJobStartEntitiesDetectionJobStartKeyPhrasesDetectionJobStartSentimentDetectionJob


这些 API 中的每一个都采用 InputDataConfig 和 OutputDataConfig,用以指定传入数据的格式和位置,以及相关结果应存储在 S3 的哪个位置。InputDataConfig 用于指定应将输入数据视为每个文件一个文档还是每行一个文档。


另外,我们还可以给任务命名并添加一个用于同步用途的唯一请求标识符。如果我们不提供这些信息,Comprehend 服务将自动生成它们。


在撰写本文时,对于实体和关键短语检测、语言检测及情绪检测,异步操作支持的最大单个文档大小分别为 100KB、1MB 和 5KB。批处理中所有文件的总大小必须小于 5GB,而且对于每个批次,我们提交的单独文件数不能超过 100 万个。


现在我们已经了解了 API 的功能,接下来我们来看看更新后的控制台并启动任务!

Amazon Comprehend 分析控制台

首先,我将导航到 AWS 管理控制台并打开 Amazon Comprehend。接下来,我将选择新的分析控制台。



在此,我可以单击控制台右上角的“创建”按钮来创建一个新的分析任务。我将创建一个实体检测任务并选择英语作为我的文档语言。然后,我会指示控制台选择一些示例数据。



现在,我将配置输出数据的位置,并确保所选服务角色有权访问该 S3 存储桶。然后,我将启动任务!



在如下页面上,我可以看到在控制台中启动的操作,并可等到操作完成后再查看详细结果。



在任务页面上,我可以看到任务的状态和输出位置。如果我从 S3 位置下载结果,则可以查看示例文本中检测到的实体。



在这里,我已截断结果,但大多数情况下它们如下所示:


Json


{  "Entities": [    {      "BeginOffset": 875,      "EndOffset": 899,      "Score": 0.9936646223068237,      "Text": "University of California",      "Type": "ORGANIZATION"    },    {      "BeginOffset": 903,      "EndOffset": 911,      "Score": 0.9519965648651123,      "Text": "Berkeley",      "Type": "LOCATION"    },    {      "BeginOffset": 974,      "EndOffset": 992,      "Score": 0.9981470108032227,      "Text": "Christopher Monroe",      "Type": "PERSON"    },    {      "BeginOffset": 997,      "EndOffset": 1010,      "Score": 0.9992995262145996,      "Text": "Mikhail Lukin",      "Type": "PERSON"    },    {      "BeginOffset": 1095,      "EndOffset": 1099,      "Score": 0.9990954399108887,      "Text": "2017",      "Type": "DATE"    }  ],  "File": "Sample.txt",  "Line": 8}
复制代码


很酷吧!我们可以通过类似的步骤进行情感检测或关键短语检测。由于我们可以在一个批次中提交多达 5GB 的数据,因此客户将花费较少的时间来转换和截断文档。


我个人推荐使用 AWS Step Functions 之类的工具,以编程方式检查任务状态。设置和构建编程分析管道非常简单。



正如我们在 Roy Hasson 撰写的这篇博客文章中提到的,您还可以使用 AWS Glue 将 Comprehend 作为您常规 ETL 操作的一部分加以调用。

附加信息

您可以在该文档中找到有关这些新 API 的详细信息,并了解有关限制和最佳实践的更多信息。


如前所述,同步批处理 API 仍然可用,并且适合用于较小的文档集和较小的文档。


和往常一样,欢迎随时在这里或在 Twitter 上分享您的反馈。


作者介绍:


Randall Hunt


AWS 全球高级布道师。此前供职于 NASA, SpaceX 及 MongoDB。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-comprehend-launches-asynchronous-batch-operations/


2019-10-21 08:00759

评论

发布
暂无评论
发现更多内容

如何进行数据挖掘?

郑州埃文科技

数据挖掘 数据库

喜讯!openGauss社区入选2021年 “科创中国”榜单

APICloud平台使用融云模块实现音视频通话实践经验总结分享

YonBuilder低代码开发平台

前端开发 APP开发 APICloud 融云 跨端开发

Jaeger docker部署实操

非晓为骁

Docker Jaeger Go 语言 http client

打造优质的车联网体验,仍需注意数据安全保护

FinClip

向工程腐化开炮 | Java代码治理

阿里巴巴终端技术

Java android JVM 代码治理

云计算及国内主流云厂商概述

穿过生命散发芬芳

3月月更

如何从头到脚彻底解决一个MySQL Bug?华为云数据库高级专家带你看

华为云数据库小助手

bug GaussDB 华为云数据库 GaussDB(for MySQL)

WebRTC 简单入门

ZEGO即构

WebRTC 动手实践 音视频开发 即构科技

企业内PAAS建设的经验与教训

Crazy

中间件 PaaS 经验 云原生应用

TiDB 可观测性方案落地探索 | “我们这么菜评委不会生气吧”团队访谈

PingCAP

大数据培训:Hadoop和MPP有什么区别

@零度

hadoop MPP 大数据开发

Go HTTP Server 基于OpenTelemetry 使用Jaeger - 代码实操

非晓为骁

Go Docker Trace Jaeger OpenTelemetry

移动域全链路可观测架构和关键技术

阿里巴巴终端技术

架构 App 移动端 体验优化

Gitlab-ci 替代 webhook 触发Jenkins job

网易云信

gitlab

【IT运维】多台海外主机运维用什么工具好?

行云管家

服务器 IT运维 服务器运维 海外主机

低代码实现探索(三十七)业务的流程,开发的框架

零道云-混合式低代码平台

数字化时代下,智能运维全栈监控解决方案及案例盘点

云智慧AIOps社区

运维 解决方案 场景应用 自动化运维 运维安全

OceanBase 社区版 运维管控平台 OCP 功能解读

OceanBase 数据库

OCP oceanbase OceanBase 开源 OceanBase 社区版

ICASSP 2022 | 前沿音视频成果分享:基于可变形卷积的压缩视频质量增强网络

阿里云CloudImagine

阿里云 计算机视觉 音视频 视频编码 视频云

JavaScript深入理解之闭包

锋享前端

java培训:SpringBoot高频面试考点分享

@零度

JAVA开发 springboot

实用机器学习笔记二十五:超参数优化

打工人!

学习笔记 超参数调优 机器学习算法 3月月更

如何使用OKR管理团队?

优秀

盲盒风潮过后,中国收藏玩具市场该何去何从?

易观分析

盲盒 潮玩

企业知识管理的目标是什么?

小炮

hexo+github搭建个人博客前期部署工作

静Yu

Hexo

N个技巧,编写更高效 Dockerfile|云效工程师指北

阿里云云效

阿里云 云原生 Dockerfile 部署与维护 构建工具

【直播回顾】OpenHarmony知识赋能第四期直播——标准系统HDF开发

OpenHarmony开发者

直播 HDF OpenHarmony

【51单片机】室友用一把王者时间,学会了去使用数码管

謓泽

3月月更

中国AI的下一站:从两会高地奔涌向产业河谷

脑极体

Amazon Comprehend 发布异步批处理操作_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章