抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

Apache MXNet 版本 0.12 扩展了 Gluon 功能以支持前沿的研究

2019 年 11 月 06 日

Apache MXNet 版本 0.12 扩展了 Gluon 功能以支持前沿的研究

上周,Apache MXNet 社区发布了 MXNet 版本 0.12。主要功能是支持 NVIDIA Volta GPU 和 sparse tensor。该版本还包括一些新的 Gluon 编程接口功能。特别是,可以通过这些功能在您的深度学习模型中轻松开展前沿的研究:


  • 变分丢弃;可用于有效地应用丢弃技术以减轻递归神经网络 (RNN) 中的过拟合问题

  • 卷积 RNN、长短期记忆 (LSTM) 和门控循环单元 (GRU) 单元;可用于对具有基于时间的序列和空间维度的数据集进行建模

  • 七个新的损失函数、导出功能和训练器函数增强功能


变分丢弃 (VariationalDropoutCell) 根据最新的研究提供一种新的工具以减轻 RNN 中的过拟合问题。本文参考了“A Theoretically Grounded Application of Recurrent Neural Networks”“RNNDrop: A Novel Approach for RNNs in ASR”。_过拟合_是一种建模错误,其中拟合的模型与训练数据集非常接近,以至于在查看新数据或测试数据集时,将会降低其预测精度。_丢弃_是一种建模技术,它随机地将模型参数归零,以便模型在训练过程中不会过度依赖于任何单个输入或参数。不过,这种技术尚未成功应用于 RNN。迄今为止的研究侧重于仅将丢弃完全随机地应用于输入和输出,即,在 RNN 的所有时间步长中将其归零。变分丢弃消除了这种涵盖所有时间步长的随机性,并在每个时间步长将相同的随机丢弃数组 (或掩码) 应用于 RNN 的输入、输出和隐藏状态。



卷积 RNN、LSTM 和 GRU 单元 (例如,Conv1DRNNCell、Conv1DLSTMCell、Conv1DGRUCell) 简化了具有序列和空间维度 (例如,随时间捕获的视频或图像) 的数据集的建模过程。卷积 LSTM 模型首次成功应用于“Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting”中介绍的研究。LSTM 网络设计用于分析顺序数据,同时跟踪长期相关性。它们提高了自然语言处理 (NLP) 的技术水平。不过,在应用于数据集空间维度以及具有基于时间的序列的时空使用案例时,它们产生的效果非常有限。时空使用案例的示例包括预测未来六小时香港的不同低洼地区的总降雨量 (如前面引用的研究论文所讨论的一样),或者检测视频是否包含暴力内容。为了识别图像,卷积神经网络 (CNN) 对图像应用卷积运算以使模型能够捕获空间上下文,从而提高了技术水平。卷积 RNN、LSTM 和 GRU 分别将这些卷积运算加入 RNN、LSTM 和 GRU 架构中。



该 MXNet 版本还在 Gluon 支持的损失函数集中增加了七个损失函数:(1) S 形二叉交叉熵损失、(2) 联结主义时间分类 (CTC) 损失、(3) Huber 损失、(4) 铰链损失、(5) 平方铰链损失、(6) 逻辑损失和 (7) 三重损失。损失函数根据某个目标衡量您的模型效果是否良好。这些损失函数使用不同的数学计算来衡量这种效果,因此,它们在模型训练期间对优化过程具有不同的影响。选择损失函数更多地是一门艺术而不是一门科学,并且没有简单的启发式方法帮助确定选择哪个函数。相反,您可以参考对这些损失函数的广泛研究,以了解何时可以成功应用这些损失函数,而何时无法成功应用这些损失函数。


该版本还引入了一些有用的附加功能,例如,导出 API 和训练器优化程序函数的学习速率属性。通过使用导出 API,您可以将神经网络模型架构和相关的模型参数导出为中间格式,可以在以后或不同位置使用该格式加载模型。该 API 仍然是实验性的,因此,尚不支持所有功能。此外,您现在还可以使用新增的训练器学习速率属性设置和读取学习速率。


后续步骤

MXNet 非常容易上手,可以在发行说明中找到该版本的完整更改列表。要了解 Gluon 接口的详细信息,请访问 MXNet 详细信息页面教程


作者介绍:



Vikram Madan 是 AWS 深度学习高级产品经理。他负责开发让深度学习引擎变得更易于使用的产品,工作重点是开源 Apache MXNet 引擎。在业余时间,他喜欢长跑以及看纪录片。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/apache-mxnet-version-0-12-extends-gluon-functionality-to-support-cutting-edge-research/


2019 年 11 月 06 日 08:00193

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论

发布
暂无评论
发现更多内容

oeasy 教您玩转 linux 010215 随机谚语 fortune

o

anyRTC RTSP转WebRTC方案

anyRTC开发者

音视频 WebRTC 直播 RTC 安卓

对比 Redis 中 RDB 和 AOF 持久化

超超不会飞

Spring 5 中文解析数据存储篇-Spring框架的事物支持模型的优势

青年IT男

Spring5 数据存储

别闹,我用1个BTC居然买不了一个爱马仕包

猫Buboo

区块链+

“度拉拉”升职记:中国语音助手的成长史

脑极体

血的教训!千万别在生产使用这些 redis 指令

楼下小黑哥

Java redis 生产事故

第六周作业

Vincent

极客时间 极客大学

互联网只改变了商业的一部分,区块链将从根本上重构商业

CECBC区块链专委会

区块链 去中心化 互联网金融

最新:央行副行长详解数字人民币,信息量巨大!

CECBC区块链专委会

人民币 数字人民币

查找数组中最大值的5种方法!(动图演示)

王磊

Java 面试题

再深入一点|binlog和relay-log到底长啥样?

艾小仙

Java MySQL 数据库 架构设计

数字资产会成为人类最大的资产

CECBC区块链专委会

数字资产 数字化时代 孙正义

Linux基金会唯一官方微服务培训课程免费学 | 快速构建稳定可靠的微服务应用

TARS基金会

开源 微服务 培训 Linux基金会 TARS

随想之UI+API

云杉

分库分表中间件的高可用实践

无毁的湖光

MySQL TCP 高可用 分库分表 高性能

数字货币交易所源码开发,区块链交易系统搭建服务商

13530558032

我是如何从0到1完成一个简单的中间件(1)

sinsy

Java 中间件

第六周学习总结

Vincent

极客时间 极客大学

【获奖名单公布】程序员摇身一变摄影师,属于技术人的摄影展示大赛

InfoQ写作平台官方

写作平台 征稿 活动专区

切片真的是引用类型嘛

Gopher指北

go go汇编

anyRTC语音开黑demo正式上线

anyRTC开发者

音视频 WebRTC 直播 RTC

MySQL数据库技术与应用:数据查询

华为云开发者社区

MySQL 数据库 存储

111

不在调上

Golang领域模型-资源库

奔奔奔跑

go 微服务架构 领域驱动设计 DDD 微服务拆分

java安全编码指南之:字符串和编码

程序那些事

安全编码指南 java安全编码 java安全编码指南

关于数据存储引擎结构,没有比这篇更详细的

华为云开发者社区

数据库 nosql 存储

iPad Air把它大哥iPad Pro按在地上摩擦

徐说科技

flutter之踩坑的日子(2)

霜蓝手环

小程序flutter, 跨平台 Flutter Android Apk

这是一个奇怪的因果关系

陈磊@Criss

摄影

追光逐影:焦距与镜头语言

北风

创作 生活 摄影 光影 摄影征文

Study Go: From Zero to Hero

Study Go: From Zero to Hero

Apache MXNet 版本 0.12 扩展了 Gluon 功能以支持前沿的研究-InfoQ