写点什么

Amazon SageMaker Ground Truth 不断简化标记工作流

  • 2019-10-01
  • 本文字数:2439 字

    阅读完需:约 8 分钟

Amazon SageMaker Ground Truth 不断简化标记工作流

在 AWS re:Invent 2018 上推出的 Amazon SageMaker Ground Truth 是 Amazon SageMaker 中的一项功能,可方便客户高效准确地为机器学习训练系统所需的数据集添加标签。

Amazon SageMaker Ground Truth 快速回顾

Amazon SageMaker Ground Truth 可帮助您快速构建高度准确的机器学习训练数据集。利用 SageMaker Ground Truth,可以方便地找到公开和非公开的人工标记者,并为他们提供用于常见加标签任务的内置工作流和界面。此外,SageMaker Ground Truth 还可以使用自动加标签功能将加标签的成本降低多达 70%,其中自动加标签的工作原理是利用人工加标签的数据来训练 Ground Truth,从而使这项服务学会独立为数据加标签。


Amazon SageMaker Ground Truth 可帮助您为下列目的构建数据集:


  • 文本分类。

  • 图像分类,即将图像分类为特定的类别。

  • 对象检测,即使用边界框找到图像中的对象。

  • 语义分割,即以像素级的精确度找到图像中的对象。

  • 自定义由用户定义的任务,允许客户对任何内容进行标注。

  • 您可以选择由标记者团队完成这项任务,并将加标签的请求直接发送给他们。如果您需要扩大规模,也可以直接在 Amazon SageMaker Ground Truth 控制台中提供相关选项,以便与组织外部的标记者合作。通过集成 Amazon Mechanical Turk,可为您效劳的公共劳动力将包含超过 500,000 名标记者。如果您的数据需要保密或特殊技能,您也可以选择由 Amazon 预先筛选并在 AWS Marketplace 上列出的专业标记公司。

推出新功能

自该服务推出以来,我们收集了大量来自 T-Mobie、Pinterest、Chang healthcare、GumGum、Automagi 等公司的客户反馈(目前还在继续收集!)。我们在此基础上定义了服务下一次迭代的雏形,而就在几个星期之前,我们刚刚发布了两个呼声很高的功能:


  • 多类别边界框(允许您同时为图像中的多个类别加标签)。

  • 三个适用于自定义工作流的新 UI 模板,共有十五种不同的模板,可帮助您快速构建图像、文本和音频数据集的标注工作流。


今天,我们很高兴地再宣布一系列新功能。这些功能可以让具成本效益的加标签工作流能够更加简便地构建和运行。让我们来详细了解这些新功能。

作业链

客户通常希望能在后续的加标签作业中利用先前加标签作业的成果。从基本上来说,他们希望利用所得的加标签数据集(以及所得的机器学习模型 [如果启用了数据自动加标签]),将加标签作业链在一起。例如,他们可能会在初始作业中识别图像中是否存在人类,然后在运行后续作业时,希望在人类周围绘制边界框。


如果使用主动学习,客户可能还希望使用生成的机器学习模型,以便在后续作业中引导实现自动为数据加标签。设置过程非常简单:只需一次点击即可将加标签作业链在一起!

作业跟踪

客户希望能够查看其加标签作业进度的状态。现在,我们已经能够近乎实时地提供加标签作业状态。


长期作业

许多客户选择由专家来充当标记者角色,并定期执行加标签作业。例如,医疗保健公司经常选择有临床医生充当他们的专业加标签人员,而他们只能在不工作时偶尔执行加标签作业。在这些情况下,加标签作业会需要运行更长时间,有时长达数周或数月。我们现在支持更长的任务超时窗口,其中每批标记作业可以运行 10 天,这意味着加标签作业可以延长到数月。

动态自定义工作流

在设置自定义工作流时,除源数据外,客户还希望插入或使用其他上下文。例如,在发送给标记者的任务中,客户可能希望在每个图像上方显示具体天气状况;这些信息可以帮助标记者更好地完成手头的任务。具体而言,客户可以利用此功能将先前加标签作业的成果或其他自定义内容注入自定义工作流。使用包含源数据和附加上下文的增强清单文件将此信息传递到预处理 Lambda 函数。客户还可以使用其他上下文来动态调整工作流。

新的服务提供商和新语言

我们在 AWS Marketplace 上列出了两个新的数据标记服务提供商:Vivetic 和 SmartOne。在这两家供应商加入之后,Amazon SageMaker Ground Truth 将增加对法语、德语和西班牙语数据标记的支持。


区域扩展

除美国东部(弗吉尼亚州)、美国中部(俄亥俄州)、美国西部(俄勒冈州)、欧洲(爱尔兰)和亚太地区(东京)外,亚太地区(悉尼)现在也可以使用 Amazon SageMaker Ground Truth。

客户案例研究:ZipRecruiter

ZipRecruiter 帮助求职者找到好工作,帮助雇主成立好公司。自 Amazon SageMaker 推出以来,他们一直在使用这项服务。ZipRecruiter 首席技术官 Craig Ogg 表示:“ZipRecruiter 的 AI 驱动算法可以了解每个雇主所需要的人才,并提供一组相关度和个性化程度较高且经过挑选的候选人。就市场中的另一方面而言,公司采用的技术还要能够将求职者与最相关的工作相匹配。为了有效地完成所有这些工作,我们需要一个机器学习模型,以便从上传的简历中自动提取相关数据。”


当然,构建数据集是机器学习过程的关键部分,通常会耗费大量资金而且非常耗时。为了解决这两个问题,ZipRecruiter 选择了 Ground Truth 和我们的一个标记合作伙伴 iMerit。


正如 Craig 所说的那样:“Amazon SageMaker Ground Truth 将大大帮助我们减少创建训练数据集所需的时间和精力。由于数据的保密性,我们最初考虑使用我们自己的一个团队,但这需要占用他们完成常规任务的时间,并且需要数月才能收集我们需要的数据。在使用 Amazon SageMaker Ground Truth 的同时,我们聘用了 Amazon 预先筛选的专业标记公司 iMerit 来协助完成自定义的标注项目。在他们的帮助下,我们收集数千个标注所需的时间与使用我们自己的团队相比只是九牛一毛。”

开始使用

我希望这篇文章能够提供丰富的信息,并且希望这些新功能可以帮助您更快地完成构建工作。请试用 Amazon SageMaker Ground Truth,让我们知道您的想法,并帮助我们构建这项出色服务的下一次迭代!


作者介绍:


Julien Simon


作为欧洲、中东和非洲 (EMEA) 地区人工智能和机器学习的宣传官,Julien 致力于帮助开发人员和企业将他们的想法变成现实。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-sagemaker-ground-truth-keeps-simplifying-labeling-workflows/


2019-10-01 08:00797
用户头像

发布了 1852 篇内容, 共 119.6 次阅读, 收获喜欢 78 次。

关注

评论

发布
暂无评论
发现更多内容

Serverless 崛起背后的五大挑战

Serverless Devs

Serverless

并发王者课-铂金6:青出于蓝-Condition如何把等待与通知玩出新花样

MetaThoughts

Java 多线程 并发

聊聊数据仓库中维度表设计的二三事

云祁

数据仓库 维度建模 7月日更

今天,「浪潮云说」直播间开讲啦!

云计算

并发王者课-铂金8:峡谷幽会-看CyclicBarrier如何跨越重峦叠嶂

MetaThoughts

Java 并发 多线

阿里技术分享:闲鱼IM基于Flutter的移动端跨端改造实践

JackJiang

flutter 即时通讯 IM

不愧是阿里内部“SpringCloudAlibaba学习笔记”竟然在GitHub霸榜月余

Java 编程 架构 微服务

数字化转型提升太平洋保险风险治理能力

数据湖洞见

大数据

免费分享学习Java框架Netty的优秀图书

Java入门到架构

Java 书籍推荐

Nacos配置中心交互模型是 push 还是 pull ?你应该这么回答

程序员小富

Java 编程 程序员 分布式 nacos

并发王者课-铂金7:整齐划一-CountDownLatch如何协调多线程的开始和结束

MetaThoughts

Java 多线程 并发

一文讲懂Hive高可用、HiveServer2高可用及Metastore高可用

白贺BaiHe

数据仓库 7月日更 HiveServer2高可用 Metastore高可用 Hive高可用

国家网信办:“滴滴出行” 下架整改!

学神来啦

DDD笔记

topsion

从结构体、内存池初始化到申请释放,详细解读鸿蒙轻内核的动态内存管理

华为云开发者联盟

鸿蒙

CloudQuery 使用教程 No.4 数据查询(下)

BinTools图尔兹

dba 数据库管理工具 国产数据库 运维开发

合肥智慧社区平台建设解决方案,平安小区建设

论文解读丨文档结构分析

华为云开发者联盟

模型 文档 文档结构分析 分割 文档结构

iOS开发 · iOS音视频开发 - ARKit 教学:如何搭配SceneKit来建立一个简单的ARKit Demo

iOSer

ios ios开发 ARKit iOSAR.

NumPy_2021.07.05

Flychen

云图说 | 华为云医疗智能体智联大健康:AI医学影像

华为云开发者联盟

AI 医学影像 医疗智能体 华为云医疗智能体 大健康

Rust从0到1-Cargo-安装来自Crates.io的程序

rust cargo install

Flink 的底层API

五分钟学大数据

flink 7月日更

系统故障防不胜防?不存在的,让大佬来给你上一课!

TakinTalks稳定性社区

高可用 测试 全链路压测 测试工具 生产环境全链路压测

从零实现一个 k-v 存储引擎

roseduan

存储 Go 语言 KV存储引擎 存储系统

iOS不行?还是个人能力有限?

ios 程序员 IT 编程之路

2022秋招vue面试题+答案

buchila11

Vue Vue 3

涨薪50%,从小厂逆袭,坐上美团L8技术专家(面经+心得)

Java 编程 程序员 面试

Java开发从二面被拒到收割阿里架构offer,我花了一年时间,复盘成功经历!

Java架构追梦

Java 阿里巴巴 架构 offer 成长笔记

阿里P8耗时半年总结的Java核心面试知识,助我轻松拿下蚂蚁offer

Java 程序员 面试 java编程 java技术宅

《持之以恒的从事运动》二

Changing Lin

Amazon SageMaker Ground Truth 不断简化标记工作流_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章