HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Amazon SageMaker Ground Truth 不断简化标记工作流

  • 2019-10-01
  • 本文字数:2439 字

    阅读完需:约 8 分钟

Amazon SageMaker Ground Truth 不断简化标记工作流

在 AWS re:Invent 2018 上推出的 Amazon SageMaker Ground Truth 是 Amazon SageMaker 中的一项功能,可方便客户高效准确地为机器学习训练系统所需的数据集添加标签。

Amazon SageMaker Ground Truth 快速回顾

Amazon SageMaker Ground Truth 可帮助您快速构建高度准确的机器学习训练数据集。利用 SageMaker Ground Truth,可以方便地找到公开和非公开的人工标记者,并为他们提供用于常见加标签任务的内置工作流和界面。此外,SageMaker Ground Truth 还可以使用自动加标签功能将加标签的成本降低多达 70%,其中自动加标签的工作原理是利用人工加标签的数据来训练 Ground Truth,从而使这项服务学会独立为数据加标签。


Amazon SageMaker Ground Truth 可帮助您为下列目的构建数据集:


  • 文本分类。

  • 图像分类,即将图像分类为特定的类别。

  • 对象检测,即使用边界框找到图像中的对象。

  • 语义分割,即以像素级的精确度找到图像中的对象。

  • 自定义由用户定义的任务,允许客户对任何内容进行标注。

  • 您可以选择由标记者团队完成这项任务,并将加标签的请求直接发送给他们。如果您需要扩大规模,也可以直接在 Amazon SageMaker Ground Truth 控制台中提供相关选项,以便与组织外部的标记者合作。通过集成 Amazon Mechanical Turk,可为您效劳的公共劳动力将包含超过 500,000 名标记者。如果您的数据需要保密或特殊技能,您也可以选择由 Amazon 预先筛选并在 AWS Marketplace 上列出的专业标记公司。

推出新功能

自该服务推出以来,我们收集了大量来自 T-Mobie、Pinterest、Chang healthcare、GumGum、Automagi 等公司的客户反馈(目前还在继续收集!)。我们在此基础上定义了服务下一次迭代的雏形,而就在几个星期之前,我们刚刚发布了两个呼声很高的功能:


  • 多类别边界框(允许您同时为图像中的多个类别加标签)。

  • 三个适用于自定义工作流的新 UI 模板,共有十五种不同的模板,可帮助您快速构建图像、文本和音频数据集的标注工作流。


今天,我们很高兴地再宣布一系列新功能。这些功能可以让具成本效益的加标签工作流能够更加简便地构建和运行。让我们来详细了解这些新功能。

作业链

客户通常希望能在后续的加标签作业中利用先前加标签作业的成果。从基本上来说,他们希望利用所得的加标签数据集(以及所得的机器学习模型 [如果启用了数据自动加标签]),将加标签作业链在一起。例如,他们可能会在初始作业中识别图像中是否存在人类,然后在运行后续作业时,希望在人类周围绘制边界框。


如果使用主动学习,客户可能还希望使用生成的机器学习模型,以便在后续作业中引导实现自动为数据加标签。设置过程非常简单:只需一次点击即可将加标签作业链在一起!

作业跟踪

客户希望能够查看其加标签作业进度的状态。现在,我们已经能够近乎实时地提供加标签作业状态。


长期作业

许多客户选择由专家来充当标记者角色,并定期执行加标签作业。例如,医疗保健公司经常选择有临床医生充当他们的专业加标签人员,而他们只能在不工作时偶尔执行加标签作业。在这些情况下,加标签作业会需要运行更长时间,有时长达数周或数月。我们现在支持更长的任务超时窗口,其中每批标记作业可以运行 10 天,这意味着加标签作业可以延长到数月。

动态自定义工作流

在设置自定义工作流时,除源数据外,客户还希望插入或使用其他上下文。例如,在发送给标记者的任务中,客户可能希望在每个图像上方显示具体天气状况;这些信息可以帮助标记者更好地完成手头的任务。具体而言,客户可以利用此功能将先前加标签作业的成果或其他自定义内容注入自定义工作流。使用包含源数据和附加上下文的增强清单文件将此信息传递到预处理 Lambda 函数。客户还可以使用其他上下文来动态调整工作流。

新的服务提供商和新语言

我们在 AWS Marketplace 上列出了两个新的数据标记服务提供商:Vivetic 和 SmartOne。在这两家供应商加入之后,Amazon SageMaker Ground Truth 将增加对法语、德语和西班牙语数据标记的支持。


区域扩展

除美国东部(弗吉尼亚州)、美国中部(俄亥俄州)、美国西部(俄勒冈州)、欧洲(爱尔兰)和亚太地区(东京)外,亚太地区(悉尼)现在也可以使用 Amazon SageMaker Ground Truth。

客户案例研究:ZipRecruiter

ZipRecruiter 帮助求职者找到好工作,帮助雇主成立好公司。自 Amazon SageMaker 推出以来,他们一直在使用这项服务。ZipRecruiter 首席技术官 Craig Ogg 表示:“ZipRecruiter 的 AI 驱动算法可以了解每个雇主所需要的人才,并提供一组相关度和个性化程度较高且经过挑选的候选人。就市场中的另一方面而言,公司采用的技术还要能够将求职者与最相关的工作相匹配。为了有效地完成所有这些工作,我们需要一个机器学习模型,以便从上传的简历中自动提取相关数据。”


当然,构建数据集是机器学习过程的关键部分,通常会耗费大量资金而且非常耗时。为了解决这两个问题,ZipRecruiter 选择了 Ground Truth 和我们的一个标记合作伙伴 iMerit。


正如 Craig 所说的那样:“Amazon SageMaker Ground Truth 将大大帮助我们减少创建训练数据集所需的时间和精力。由于数据的保密性,我们最初考虑使用我们自己的一个团队,但这需要占用他们完成常规任务的时间,并且需要数月才能收集我们需要的数据。在使用 Amazon SageMaker Ground Truth 的同时,我们聘用了 Amazon 预先筛选的专业标记公司 iMerit 来协助完成自定义的标注项目。在他们的帮助下,我们收集数千个标注所需的时间与使用我们自己的团队相比只是九牛一毛。”

开始使用

我希望这篇文章能够提供丰富的信息,并且希望这些新功能可以帮助您更快地完成构建工作。请试用 Amazon SageMaker Ground Truth,让我们知道您的想法,并帮助我们构建这项出色服务的下一次迭代!


作者介绍:


Julien Simon


作为欧洲、中东和非洲 (EMEA) 地区人工智能和机器学习的宣传官,Julien 致力于帮助开发人员和企业将他们的想法变成现实。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-sagemaker-ground-truth-keeps-simplifying-labeling-workflows/


2019-10-01 08:00760
用户头像

发布了 1848 篇内容, 共 113.9 次阅读, 收获喜欢 78 次。

关注

评论

发布
暂无评论
发现更多内容

web前端开发培训有前途吗?

小谷哥

OneFlow源码解析:Global Tensor

OneFlow

人工智能 深度学习 源码解析

前端培训学习的人这么多,行业前景怎样

小谷哥

和鲸 ModelWhale 入选《2022爱分析 · 数据智能厂商全景报告》

ModelWhale

机器学习 数据智能 数据科学 厂商

让你的 Runner 可视化,使用 Prometheus + Grafana 实现极狐GitLab Runner 可视化

极狐GitLab

DevOps Grafana Prometheus runner 极狐GitLab

从“青铜”到“王者”,制造企业的数字化闯关记

脑极体

2022年汽车品牌智能网联竞争力指数(ICVCI)

易观分析

汽车 ICVCI 智能网联

Mac Osx终端显示图片

Geek_pwdeic

terminal osx

Java 字节码简介

Kian.Lee

Java JVM bytecode 字节码

这么多大数据培训机构怎么来选择呢

小谷哥

九科信息RPA助力某大型航运企业财务部门降本增效,实现业务流程自动化操作

九科Ninetech

前端比较好的培训机构是哪家?

小谷哥

腾讯升级云原生产品布局 助力企业数字化转型更进一步

科技热闻

分层的电子签市场,被忽略的小微企业

ToB行业头条

实时数据湖 Flink Hudi 实践探索

阿里云大数据AI技术

大数据 flink 企业号十月 PK 榜

找个好用的录屏软件,怎么这么难?

淋雨

Camtasia

千锋教育走访人才合作企业数式科技 深度了解企业人才需求

千锋IT教育

面向复杂业务场景下的低代码平台组件设计与实践分享

Baidu AICLOUD

组件化 低代码开发平台 数据映射

深圳开发培训学习怎么选择靠谱的机构?

小谷哥

“程”风破浪的开发者|我的js之路

隔壁老帆帆

学习方法 1024 1024程序员节 “程”风破浪的开发者

精盾信息莅临千锋教育武汉校区招聘前端开发工程师

千锋IT教育

安全可控的企业级低代码开发平台

力软低代码开发平台

阿里云注册集群+Prometheus 解决多云容器集群运维痛点

阿里巴巴云原生

阿里云 云原生 Grafana Prometheus

Go语言入门10—Map

良猿

Go golang 后端 Go web

OpenHarmony将携新成果亮相HDC2022

OpenHarmony开发者

OpenHarmony

Zepoch已售出500+,Zebec Chain受到市场追捧

西柚子

SSH的工作原理、加密方式以及配置多个ssh key

甜点cc

前端 学习笔记 加密 SSH 10月月更

学C++的以后都能从事哪些岗位?

C++后台开发

c++ 后端开发 客户端开发 linux开发 C++开发

LED显示屏安装之前要注意的问题

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

Spring Boot「18」使用 JDBC 连接数据库

Samson

Java spring 学习笔记 spring-boot 10月月更

敢承诺安全效果?IT人竟能如此省心

科技热闻

Amazon SageMaker Ground Truth 不断简化标记工作流_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章