QCon 广州站2022已开启,三大关键词:数字化、国产化、云原生。戳此了解 了解详情
写点什么

AAAI 2021 论文:门控记忆神经网络

  • 2021 年 3 月 09 日
  • 本文字数:3130 字

    阅读完需:约 10 分钟

AAAI 2021论文:门控记忆神经网络

多维时间序列由多个随时间演化的相关变量共同构成。这种数据结构广泛存在于科学研究和现实应用场景中。比如在电商场景中,多类产品的销售额随时间变化,共同构成一组多维时间序列;在金融股票市场中,多支股票的价格构成一组多维时间序列。提取这类数据结构中的信息并做出分析和预测在当前大数据的时代尤为重要。


在机器学习方法中,循环神经网络(RNN)是一类分析多维时间序列的重要模型。其主要特征是能够按时间顺序提取数据的信息并将其作为记忆保存在神经网络中。这一类模型(尤其是其中包含门控变量的变体 LSTM 和 GRU)在语音识别, 动态图像处理,天气预测,金融数据分析等领域都取得了巨大成功。


在 2020 年 12 月收录的 AAAI 2021(CCF-A 类)会议,我们被收录了一篇名为《Memory-Gated RecurrentNetworks》的论文。该论文针对多维时间序列的信息结构,在现有循环神经网络模型的基础上做出了改进,提升了模型提取多维信息的能力。

一、研究动机

多维时间序列信息提取的难点和精髓在于提取数据中复杂的相互依赖关系。在这种数据结构中,每一个变量的演化不仅依赖于其自身的历史信息(即各变量自身的时序记忆 the marginal memories),而且依赖于变量间的相互作用(即变量间相互作用的时序记忆 the joint memory)。我们仍以电商产品的销售额举例,某一类商品的销售额变化不仅受到其自身的季节性等等因素影响,也会因为节假日等因素和其他商品类别的销售额产生强相关。


尽管多维时间序列的这一信息特征在经典统计模型(比如 ARMA-GARCH)中有所体现,但是并没有被现有的机器学习方法利用。比如在使用 LSTM 对商品销售额做预测时,我们将不同商品的销售额不加区分的输入网络,并完全期待网络自身来分辨其中的复杂依赖关系。这样的操作是十分粗糙的。我们完全可以在神经网络中设计精细化的结构来分别提取多维时间序列中的这两种记忆类型,即各变量自身的 marginal memories 和变量间的 joint memory,从而降低神经网络提取多维信息的难度。基于这样的思想,我们提出了一个新的循环神经网络结构,将其命名为门控记忆循环神经网络(Memory-GatedRecurrent Networks,mGRN)

二、模型结构

图 1:mGRN 结构示例


接下来我们介绍 mGRN 的结构。我们将变量分为 K 组,在 mGRN 中,我们设置 Marginal-memory components 来分别提取每一个变量组的记忆信息(即图 1 中的红色部分),之后在 joint-memory component 中将各变量组信息综合来提取其中的相互作用(即图 1 中的蓝色部分)。


其中 Marginal-memory components 被设计为了 GRU 的形式。信息的部分由公式 1 所示(σ代表 Sigmoid 函数。这里结构设计的重点是我们将数据信息以及其相对应的记忆清晰的对应起来,从而简化了神经网络分辨和提取信息的难度。这种清晰的对应是现有循环神经网络中所缺失的。



公式 1:Marginal-memorycomponents

之后我们将各个变量组的信息通过非线性的方式在 joint-memorycomponent 中综合起来。具体形式由公式 2 所示。这一形式是一个简化版的 GRU。在 mGRN 中,由于需要分别提取 marginal memory 和 joint memory,我们不可避免的设置大量的中间门控变量。但是过多的中间变量容易造成过拟合。为了解决这一问题,我们采取了谨慎的设计,使用 GRU 而非 LSTM 作为基础结构(GRU 结构相比 LSTM 更加简单),并且通过实验移除了 joint-memory component 中的多余部分。



公式 2:Thejoint-memory component

最后,关于 mGRN 的结构还有两点讨论。

  1. mGRN 对多维时间序列中的变量分组提取信息。如何对变量分组可以作为参数调整的一部分。我们在实验中注意到将每个变量单独分为一组通常可以取得不错的效果。

  2. 在当前论文中,我们刻意的简化模型结构来展示分别提取 marginal memory 和 joint memory 所能带来的提升。这一模型可以很容易的和其他结构(比如 CNN 和 attention 结构等)结合来取得更加出色的结果。

三、应用

mGRN 可以被应用在所有的多维时间序列数据分析中。为了展示 mGRN 的提高,我们在论文中提供了多个真实应用场景中的对比试验,其中包括


  1. 基于重症监护病房中病人身体指标构成的多维时间序列进行预测 (Harutyunyan et al. 2019)。预测目标包括病人的存活率,在重症监护病房中的停留时间等等。

  2. 口语数字发音的识别 (Bagnall et al. 2018)。多维时间序列由声音记录的多个频率组成。

  3. 手写数字笔迹的识别 (Bagnall et al. 2018)。多维时间序列由手写轨迹的坐标变化构成。


在这些应用中,对比现有文献中的最好结果。mGRN 均取得了显著地提升。但是这些实验较为复杂,感兴趣的读者可以参考我们的论文。在这里,我们提供一个在金融场景中的应用,即基于限价订单簿数据的高频股票价格预测。



图 2:限价订单簿图示

限价订单簿是股票市场中的一种常见机制,图 2 中展示的即为限价订单簿在某一时刻的状态,中间红色的一列数字记录市场愿意买卖的价格,最后白色的数字记录市场愿意买卖的股票数量。在真实交易状态下,这些数字会随着订单的提交和成交不断变化,从而构成一个高频多维时间数据集。这个数据集包含了股票的供需等信息,基于此我们可以对未来短期内股票价格的变动进行一定的预测。


参照 Sirignano andCont (2019),我们在每个时间点基于历史订单簿数据做预测,预测内容为之后股价变动的方向(即上涨或下跌),这样我们把股价预测简化为了一个二元分类问题。在应用 mGRN 时,我们将订单簿数据分成四组进行处理,即买价,买量,卖价,卖量。


我们在国内 A 股市场进行试验。我们的数据集时间跨度是从 2014 年 12 月到 2017 年 12 月。我们使用 2014 年 12 月到 2017 年 6 月的数据训练模型,2017 年 7 月到 2017 年 9 月的数据调整参数(validation set),最后用 2017 年 10 月到 2017 年 12 月的数据来对比预测结果(test set)。为了获得有代表性的结论,我们关注 CSI300 和 CSI500 指数中的股票,并剔除其中停牌时间较长的股票,得到约 300 只股票。最后,我们从中随机选取了 30 只股票进行试验。在整个数据集中,每只股票有约 4 百万个样本点。



表格 1:30 只股票的平均预测结果

我们通过预测准确度和 AUC 两个指标来衡量预测效果。30 支股票在 2017 年 10 月到 2017 年 12 月的平均预测结果如表格 1 所示。在每一只股票上,mGRN 对比 LSTM 和 GRU 的提升如图 3 中的箱形图所示。可以看到 mGRN 相比 LSTM 和 GRU 在预测效果上有显著且稳定的提升。

图 3:mGRN 相比 LSTM 和 GRU 在股票价格变化预测准确度(左图)和 AUC(右图)上的提升


我们针对多维时间序列提出了一个新的循环神经网络,即门控记忆循环神经网络(Memory-GatedRecurrent Networks,mGRN)。这一结构的主要特征是分别提取多维时间序列中每个变量(组)自身的时序记忆,以及变量间相互作用的时序记忆。通过明确设置门控变量来学习这两类记忆,我们降低了神经网络提取高维记忆的难度。相比于现有用于处理高维时间序列的机器学习算法,门控记忆循环神经网络在多个应用场景中展现出了显著且全面的提高。


References

[1] Zhang, Y.; Wu, Q.;Peng N.; Dai, M.; Zhang, J.; Wang, H. (2021). The Thirty-Fifth AAAI Conferenceon Artificial Intelligence (AAAI-21), arXiv preprint arXiv:2012.13121

[2] Bagnall, A.; Dau,H. A.; Lines, J.; Flynn, M.; Large, J.; Bostrom, A.; Southam, P.; and Keogh, E.(2018). The UEA multivariate time series classification archive, arXiv preprintarXiv:1811.00075.

[3] Harutyunyan, H.;Khachatrian, H.; Kale, D. C.; Ver Steeg, G.; and Galstyan, A. (2019). Multitasklearning and benchmarking with clinical time series data. Scientific data 6(1):1–18.

[4] Sirignano,J. and Cont, R. (2019). Universal features of price formation in financialmarkets: perspectives from deep learning. Quantitative Finance, pages 1-11.


本文转载自:京东数科风险算法与技术(ID:JDDTechTalk)

原文链接:AAAI 2021论文:门控记忆神经网络

2021 年 3 月 09 日 13:001179

评论

发布
暂无评论
发现更多内容

上线仅仅三小时,豆瓣评分均9.0的“四本程序员必刷书籍”火了

Java架构之路

Java 程序员 架构 面试 编程语言

差点跳起来了!阿里首推22w字Java面试复盘宝典成功助我入职美团

Java架构之路

Java 程序员 架构 面试 编程语言

微信朋友圈的高性能复杂度

王华

架构实战营

第八大洲环游记(二):中东云计算,异口同韵

脑极体

架构师实战营 模块三作业(基于自研集群 + MySQL存储的消息队列系统架构设计文档)

代廉洁

架构实战营

Boss直聘超90W次转发的Java面试题库!已超神

Java架构师迁哥

☕JVM技术之旅-带你认识GC回收的原理

浩宇天尚

Java JVM GC GC Root 5月日更

Tomcat 中是怎么处理文件上传的?

AI乔治

Java tomcat 架构 HTTP

网络攻防学习笔记 Day4

穿过生命散发芬芳

5月日更 网络攻防

别再纠结“性能优化方案有哪些”了

追谏

面试 大前端

架构实战营-模块3学习分享

En wei

架构实战营

GreenPlum数据库介绍

数据社

5月日更

这可能是史上最易懂的计算机网络科普文

追谏

面试 大前端 网络协议 科普 TCP/IP

EOKEX交易所系统开发方案丨EOKEX交易所源码平台

系统开发咨询1357O98O718

【Vue3】起步

德育处主任

JavaScript Vue 大前端 Web Vue 3

【LeetCode】搜索二维矩阵Java题解

HQ数字卡

算法 LeetCode 5月日更

休息一下

IT蜗壳-Tango

5月日更

深入理解spring框架之事务管理

邱学喆

mysql事务 spring事务管理 TransactionInterceptor Savepoint 事务传播行为

不爱跳槽的程序员集中在8-17k,揭晓中国开发者的真实现状

Java架构师迁哥

4.1 Go语言从入门到精通:函数

xcbeyond

函数 Go 语言 5月日更

Github标星过万!能让面试官满意的Java面试笔记到底有多强?

Java 程序员 架构 面试

架构实战营模块3作业-架构设计文档

En wei

架构实战营

牛客网亲测有效!牛客下载量近百万的Java程序员复盘秘籍真滴强

Java架构之路

Java 程序员 架构 面试 编程语言

马特机器人系统开发具体详情丨马特现成源码开发

系统开发咨询1357O98O718

新人小白福利!五一假期怒肝一天整理Java类,不简单不全你打我

牛哄哄的java大师

Java

大米“绑上”区块链,江苏为农产品上“身份证”

CECBC

数字经济如何推动制造业高质量发展

CECBC

Gartner 2021年主要战略技术趋势

车骑

组织转型 行业资讯 数字化 技术趋势 后新冠

你开25k?我给30k!能让面试官满意的Java面试笔记到底有多强?

Java 程序员 架构 面试

架构师实战营 模块三总结

代廉洁

架构实战营

CPU战争40年,终于把Intel打趴下了

Java架构师迁哥

AAAI 2021论文:门控记忆神经网络_AI_京东数科风险算法与技术_InfoQ精选文章