多维时间序列由多个随时间演化的相关变量共同构成。这种数据结构广泛存在于科学研究和现实应用场景中。比如在电商场景中,多类产品的销售额随时间变化,共同构成一组多维时间序列;在金融股票市场中,多支股票的价格构成一组多维时间序列。提取这类数据结构中的信息并做出分析和预测在当前大数据的时代尤为重要。
在机器学习方法中,循环神经网络(RNN)是一类分析多维时间序列的重要模型。其主要特征是能够按时间顺序提取数据的信息并将其作为记忆保存在神经网络中。这一类模型(尤其是其中包含门控变量的变体 LSTM 和 GRU)在语音识别, 动态图像处理,天气预测,金融数据分析等领域都取得了巨大成功。
在 2020 年 12 月收录的 AAAI 2021(CCF-A 类)会议,我们被收录了一篇名为《Memory-Gated RecurrentNetworks》的论文。该论文针对多维时间序列的信息结构,在现有循环神经网络模型的基础上做出了改进,提升了模型提取多维信息的能力。
一、研究动机
多维时间序列信息提取的难点和精髓在于提取数据中复杂的相互依赖关系。在这种数据结构中,每一个变量的演化不仅依赖于其自身的历史信息(即各变量自身的时序记忆 the marginal memories),而且依赖于变量间的相互作用(即变量间相互作用的时序记忆 the joint memory)。我们仍以电商产品的销售额举例,某一类商品的销售额变化不仅受到其自身的季节性等等因素影响,也会因为节假日等因素和其他商品类别的销售额产生强相关。
尽管多维时间序列的这一信息特征在经典统计模型(比如 ARMA-GARCH)中有所体现,但是并没有被现有的机器学习方法利用。比如在使用 LSTM 对商品销售额做预测时,我们将不同商品的销售额不加区分的输入网络,并完全期待网络自身来分辨其中的复杂依赖关系。这样的操作是十分粗糙的。我们完全可以在神经网络中设计精细化的结构来分别提取多维时间序列中的这两种记忆类型,即各变量自身的 marginal memories 和变量间的 joint memory,从而降低神经网络提取多维信息的难度。基于这样的思想,我们提出了一个新的循环神经网络结构,将其命名为门控记忆循环神经网络(Memory-GatedRecurrent Networks,mGRN)
二、模型结构
图 1:mGRN 结构示例
接下来我们介绍 mGRN 的结构。我们将变量分为 K 组,在 mGRN 中,我们设置 Marginal-memory components 来分别提取每一个变量组的记忆信息(即图 1 中的红色部分),之后在 joint-memory component 中将各变量组信息综合来提取其中的相互作用(即图 1 中的蓝色部分)。
其中 Marginal-memory components 被设计为了 GRU 的形式。信息的部分由公式 1 所示(σ代表 Sigmoid 函数。这里结构设计的重点是我们将数据信息以及其相对应的记忆清晰的对应起来,从而简化了神经网络分辨和提取信息的难度。这种清晰的对应是现有循环神经网络中所缺失的。
公式 1:Marginal-memorycomponents
之后我们将各个变量组的信息通过非线性的方式在 joint-memorycomponent 中综合起来。具体形式由公式 2 所示。这一形式是一个简化版的 GRU。在 mGRN 中,由于需要分别提取 marginal memory 和 joint memory,我们不可避免的设置大量的中间门控变量。但是过多的中间变量容易造成过拟合。为了解决这一问题,我们采取了谨慎的设计,使用 GRU 而非 LSTM 作为基础结构(GRU 结构相比 LSTM 更加简单),并且通过实验移除了 joint-memory component 中的多余部分。
公式 2:Thejoint-memory component
最后,关于 mGRN 的结构还有两点讨论。
mGRN 对多维时间序列中的变量分组提取信息。如何对变量分组可以作为参数调整的一部分。我们在实验中注意到将每个变量单独分为一组通常可以取得不错的效果。
在当前论文中,我们刻意的简化模型结构来展示分别提取 marginal memory 和 joint memory 所能带来的提升。这一模型可以很容易的和其他结构(比如 CNN 和 attention 结构等)结合来取得更加出色的结果。
三、应用
mGRN 可以被应用在所有的多维时间序列数据分析中。为了展示 mGRN 的提高,我们在论文中提供了多个真实应用场景中的对比试验,其中包括
基于重症监护病房中病人身体指标构成的多维时间序列进行预测 (Harutyunyan et al. 2019)。预测目标包括病人的存活率,在重症监护病房中的停留时间等等。
口语数字发音的识别 (Bagnall et al. 2018)。多维时间序列由声音记录的多个频率组成。
手写数字笔迹的识别 (Bagnall et al. 2018)。多维时间序列由手写轨迹的坐标变化构成。
在这些应用中,对比现有文献中的最好结果。mGRN 均取得了显著地提升。但是这些实验较为复杂,感兴趣的读者可以参考我们的论文。在这里,我们提供一个在金融场景中的应用,即基于限价订单簿数据的高频股票价格预测。
图 2:限价订单簿图示
限价订单簿是股票市场中的一种常见机制,图 2 中展示的即为限价订单簿在某一时刻的状态,中间红色的一列数字记录市场愿意买卖的价格,最后白色的数字记录市场愿意买卖的股票数量。在真实交易状态下,这些数字会随着订单的提交和成交不断变化,从而构成一个高频多维时间数据集。这个数据集包含了股票的供需等信息,基于此我们可以对未来短期内股票价格的变动进行一定的预测。
参照 Sirignano andCont (2019),我们在每个时间点基于历史订单簿数据做预测,预测内容为之后股价变动的方向(即上涨或下跌),这样我们把股价预测简化为了一个二元分类问题。在应用 mGRN 时,我们将订单簿数据分成四组进行处理,即买价,买量,卖价,卖量。
我们在国内 A 股市场进行试验。我们的数据集时间跨度是从 2014 年 12 月到 2017 年 12 月。我们使用 2014 年 12 月到 2017 年 6 月的数据训练模型,2017 年 7 月到 2017 年 9 月的数据调整参数(validation set),最后用 2017 年 10 月到 2017 年 12 月的数据来对比预测结果(test set)。为了获得有代表性的结论,我们关注 CSI300 和 CSI500 指数中的股票,并剔除其中停牌时间较长的股票,得到约 300 只股票。最后,我们从中随机选取了 30 只股票进行试验。在整个数据集中,每只股票有约 4 百万个样本点。
表格 1:30 只股票的平均预测结果
我们通过预测准确度和 AUC 两个指标来衡量预测效果。30 支股票在 2017 年 10 月到 2017 年 12 月的平均预测结果如表格 1 所示。在每一只股票上,mGRN 对比 LSTM 和 GRU 的提升如图 3 中的箱形图所示。可以看到 mGRN 相比 LSTM 和 GRU 在预测效果上有显著且稳定的提升。
图 3:mGRN 相比 LSTM 和 GRU 在股票价格变化预测准确度(左图)和 AUC(右图)上的提升
我们针对多维时间序列提出了一个新的循环神经网络,即门控记忆循环神经网络(Memory-GatedRecurrent Networks,mGRN)。这一结构的主要特征是分别提取多维时间序列中每个变量(组)自身的时序记忆,以及变量间相互作用的时序记忆。通过明确设置门控变量来学习这两类记忆,我们降低了神经网络提取高维记忆的难度。相比于现有用于处理高维时间序列的机器学习算法,门控记忆循环神经网络在多个应用场景中展现出了显著且全面的提高。
References
[1] Zhang, Y.; Wu, Q.;Peng N.; Dai, M.; Zhang, J.; Wang, H. (2021). The Thirty-Fifth AAAI Conferenceon Artificial Intelligence (AAAI-21), arXiv preprint arXiv:2012.13121
[2] Bagnall, A.; Dau,H. A.; Lines, J.; Flynn, M.; Large, J.; Bostrom, A.; Southam, P.; and Keogh, E.(2018). The UEA multivariate time series classification archive, arXiv preprintarXiv:1811.00075.
[3] Harutyunyan, H.;Khachatrian, H.; Kale, D. C.; Ver Steeg, G.; and Galstyan, A. (2019). Multitasklearning and benchmarking with clinical time series data. Scientific data 6(1):1–18.
[4] Sirignano,J. and Cont, R. (2019). Universal features of price formation in financialmarkets: perspectives from deep learning. Quantitative Finance, pages 1-11.
本文转载自:京东数科风险算法与技术(ID:JDDTechTalk)
原文链接:AAAI 2021论文:门控记忆神经网络
评论