写点什么

Amazon SageMaker 增加批量转换功能和适用于 TensorFlow 容器的管道输入模式

  • 2019-10-22
  • 本文字数:2053 字

    阅读完需:约 7 分钟

Amazon SageMaker 增加批量转换功能和适用于 TensorFlow 容器的管道输入模式

在几天前的纽约峰会期间,我们推出了两个新的 Amazon SageMaker 功能:一是批量转换功能,这是一种新的批量推断功能,客户可以通过它对 PB 级的数据进行非实时场景预测;二是适用于 TensorFlow 容器的管道输入模式。SageMaker 依然是我们最受欢迎的服务之一,此博客机器学习博客都对它进行了非常广泛的介绍。事实上,要赶上 SageMaker 团队快速的创新步伐是一件较为困难的事情。自上一篇有关 SageMaker 自动模型调整和超参数优化功能的博客发布以来,该团队已经推出了 4 种新的内置算法和许多的新功能。下面我们来看新推出的批量转换功能。

批量转换

批量转换功能是一种高性能、高吞吐量的数据转换和推断生成方法。它非常适合处理大批量数据、不需要亚秒级延迟或需要同时预处理和转换训练数据的场景。最大的好处?您无需编写任何额外的代码即可使用此功能。您可以使用所有现有的模型,并根据这些模型开始批量转换作业。此功能不加收任何费用,您只需为底层资源付费。


下面我们来看如何将此功能用于内置的对象检测算法。我将利用示例笔记本来训练对象检测模型。现在我将打开 SageMaker 控制台,然后打开 Batch Transform(批量转换)子控制台。



我可以在这里启动新的批量转换作业。



我可以在此为我的转换作业命名,选择我希望使用的模型,以及要使用的实例数量和类型。此外,我可以配置同时向我的推断发送的记录数量以及负载的大小。如果我未手动指定这些参数,则 SageMaker 将选择一些合理的默认值。



然后我需要指定输入位置。我可以使用清单文件或直接将所有文件加载到某个 S3 位置。由于我使用的是映像,我已经手动指定了我的输入内容类型。



最后,我将配置输出位置并启动作业!



一旦作业开始运行,我可以打开作业详细信息页面,点击链接查看 Amazon CloudWatch 中的指标和日志。



我可以看到作业正在运行,如果要看 S3 中的结果,我可以看到每个映像的预测标签。



转换结果将按每个输入文件生成一个输出 JSON 文件,其中包含检测到的对象。


这时可以非常轻松地为 AWS Glue 中的存储桶创建表,以及使用 Amazon Athena 查询结果或使用 Amazon QuickSight 将结果可视化


当然还可以通过 SageMaker API 以编程方式启动这些作业。


有关如何在您自己的容器中使用批量转换功能的更多详细信息,请参阅文档

适用于 Tensorflow 的管道输入模式

借助管道输入模式,客户可以使用高度优化的多线程后台进程,直接以流的方式将训练数据集从 Amazon Simple Storage Service (S3) 传入 Amazon SageMaker。与文件输入模式相比,这种模式极大地提高了读取吞吐量,因为后者必须首先将数据下载到本地 Amazon Elastic Block Store (EBS) 卷。这意味着您的训练作业可以更快启动,更快完成,使用的磁盘空间更少,与模型训练有关的费用也更低。此外,它还可让您训练超过 16 TB EBS 卷容量限制的数据集。



今天初,我们对管道输入模式进行了一些试验,发现 78 GB 数据集的启动时间最高减少了 87%,吞吐量是一些对比场景的两倍,最终总训练时间减少了 35%。


通过增加对适用于 TensorFlow 的管道输入模式的支持,进一步方便客户利用内置算法更快的速度优势。下面我们来看实际操作。


首先,我需要确保我的训练作业使用 sagemaker-tensorflow-扩展名。这将为我们提供新的 PipeModeDataset 类,它以通道和记录格式为输入,并返回一个 TensorFlow 数据集。我们可以将它用于 TensorFlow 估算器的 input_fn ,并从通道读取。下面的示例代码是一个简单的示例。


Python


from sagemaker_tensorflow import PipeModeDataset
def input_fn(channel): # Simple example data - a labeled vector. features = { 'data': tf.FixedLenFeature([], tf.string), 'labels': tf.FixedLenFeature([], tf.int64), }
# A function to parse record bytes to a labeled vector record def parse(record): parsed = tf.parse_single_example(record, features) return ({ 'data': tf.decode_raw(parsed['data'], tf.float64) }, parsed['labels'])
# Construct a PipeModeDataset reading from a 'training' channel, using # the TF Record encoding. ds = PipeModeDataset(channel=channel, record_format='TFRecord')
# The PipeModeDataset is a TensorFlow Dataset and provides standard Dataset methods ds = ds.repeat(20) ds = ds.prefetch(10) ds = ds.map(parse, num_parallel_calls=10) ds = ds.batch(64)
return ds
复制代码


然后,您可以按照与正常 TensorFlow 估算器相同的方式定义模型。对于估算器的创建时间,您只需确保 input_mode='Pipe' 在参数中即可。



现已推出


这两项新功能都已免费推出,我期待看到客户利用新的批量转换功能创造的好东西。我现在就可以告诉您的是,它可帮助我们处理 AWS 营销部的一些内部 ML 工作负载


同样,请在评论区或 Twitter 上发表您对这项功能的看法!


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/sagemaker-nysummit2018/


2019-10-22 08:00864

评论

发布
暂无评论
发现更多内容

【LangChain】一文读懂RAG基础以及基于langchain的RAG实战

京东科技开发者

百观科技基于阿里云 EMR 的数据湖实践分享

阿里云大数据AI技术

数据库 大数据 OSS OLAP EMR

音乐 NFT 项目的上线流程

北京木奇移动技术有限公司

区块链技术 软件外包公司 音乐NFT

2025年春招:如何使用DeepSeek优化简历,轻松敲开心仪公司的大门

安全乐谷

Java 面试 简历 笔试 春招

低代码时代来临,中小企业如何抓住数字化转型机遇?

天津汇柏科技有限公司

低代码 数字化转型

新疆中泰携手用友开启智慧司库建设新征程

用友BIP

智能体 数智化 用友BIP 智慧司库建设

1688API系列:1688图片搜索拍立淘接口指南

tbapi

1688图片搜索接口 1688拍立淘接口 1688图片识别接口 1688图片搜索API

深入理解 StarRocks Bitmap 索引和 Bitmap 去重

镜舟科技

StarRocks Bitmap 索引 Bitmap 去重 高基数列 精确去重

音乐NFT软件项目的性能优化

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

感受一下『迅雷』的面试强度

王中阳Go

Go 面试 后端 迅雷

混合APP开发框架及性能

北京木奇移动技术有限公司

软件外包公司 APP外包公司 APP外包开发

离线VS强制登录?Apipost与Apifox的API工具理念差异深度解析

数据追梦人

相比于DeepSeek,Manus有哪些优势

老张

大模型 DeepSeek Manus

2025 年 AppSheet 最佳开源替代品

NocoBase

开源 低代码 零代码 无代码 AppSheet

微信分享的CAD图纸在电脑上打不开是怎么回事?

在路上

cad cad看图 CAD看图王

Apache SeaTunnel MCP Server:让AI成为你的ETL助手

Apache SeaTunnel

事务处理对持久统计信息自动收集的影响

GreatSQL

中小企业怎么低成本实现智改数转

积木链小链

数字化转型 智能制造 中小企业

芯盾时代全线产品接入DeepSeek 让企业数字化业务更安全

芯盾时代

零信任 DeepSeek

人工智能中的RAG技术在测试领域的探索

测试人

人工智能

南京大学首上和鲸科技人工智能通识课!校企共育 AI 人才

ModelWhale

人工智能 大数据 教育 高等教育 南京大学

拼多多商品详情接口(pdd.item_get)

tbapi

拼多多商品详情接口 拼多多API 拼多多商品数据采集

阿里云 AI 搜索开放平台新发布:增加 QwQ 模型

阿里云大数据AI技术

人工智能 阿里云 强化学习 AI搜索 QwQ

Apple Safari 18.4 - macOS 专属浏览器 (独立安装包下载)

sysin

safari

等保整改服务

黑龙江陆陆信息测评部

「DeepSeek-V3 技术解析」:无辅助损失函数的负载均衡

Baihai IDP

AI LLMs Baihai IDP MoE 混合专家模型

美国数学奥赛题,六套AI模型得分不足5%!

grandocean

Claude LLM模型 openai o1 QwQ DeepSeek R1 模型

CAD如何进行图形统计并导出表格?

在路上

cad cad看图 CAD看图王

西电整体替换SAP!用友BIP支撑装备制造业务运营和成本精细化管控升级!

用友BIP

智能体 数智化 用友BIP 一体化

原生APP开发的性能优势

北京木奇移动技术有限公司

软件外包公司 原生APP开发 APP外包公司

AI to B奇点将至,“伙伴+华为”体系如何跨越数智鸿沟?

Alter

Amazon SageMaker 增加批量转换功能和适用于 TensorFlow 容器的管道输入模式_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章