时间序列预测——DA-RNN模型

时间序列预测——DA-RNN模型

作者:梅昊铭

1. 背景介绍

传统的用于时间序列预测的非线性自回归模型(NRAX)很难捕捉到一段较长的时间内的数据间的时间相关性并选择相应的驱动数据来进行预测。本文将介绍一种基于 Seq2Seq 模型(Encoder-Decoder 模型)并结合 Attention 机制的时间序列预测方法。作者提出了一种双阶段的注意力机制循环神经网络模型(DA-RNN),能够很好的解决上述两个问题。

模型的第一部分,我们引入输入注意力机制在每个时间步选择相应的输入特征。模型的第二部分,我们使用时间注意力机制在整个时间步长中选择相应的隐藏层状态。通过这种双阶段注意力机制,我们能够有效地解决一些时序预测方面的问题。我们将这两个注意力机制模型集成在基于 LSTM 的循环神经网络中,使用标准反向传播进行联合训练。

2. DA-RNN 模型

2.1 输入与输出

输入:给定 n 个驱动序列(输入特征),X = (x^1,x^2,...,x^n)^T = (x_1,x_2,...,x_T) \in R^{n \times T}T 表示时间步长,n 表示输入特征的维度。

输出:\hat{y}_{T}= F(y_1,...,y_{T-1},x_1,...,x_T)(y_1,...,y_{T-1})表示预测目标过去的值,其中 y_t\in R(x_1,...,x_T) 为时间 Tn 维的外源驱动输入序列,x_t \in R^nF(\cdot) 为模型需要学习的非线性映射函数。

2.2 模型结构

DA-RNN 模型是一种基于注意力机制的 Encoder-Decoder 模型。在编码器部分,我们引入了输入注意力机制来选择相应的驱动序列;在解码器部分,我们使用时间注意力机制来选择整个儿时间步长中相应的隐藏层状态。通过这个两种注意力机制,DA-RNN 模型能够选择最相关的输入特征,并且捕捉到较长时间内的时间序列之间的依赖关系,如图1所示。

image

图 1:DA-RNN 模型结构

2.3 编码器

编码器本质上是一个 RNN 模型,它能够将输入序列转换为一种特征表示,我们称之为隐藏层状态。对于时间序列预测问题,给定输入 X = (x_1,x_2,...,x_T) \in R^{n \times T},x_t \in R^n,在时刻 t ,编码器将 x_t 映射为 h_th_t = f_1(h_{t-1},x_t)h_t \in R^m 表示编码器隐藏层在时刻 t 的状态,m 表示隐藏层的维度,f_ 为非线性激活函数,本文中我们使用 LSTM。

本文中,我们提出了一种输入注意力机制编码器。它能够适当地选择相应的驱动序列,这对时间序列预测是至关重要的。我们通过确定性注意力模型来构建一个输入注意力层。它需要将之前的隐藏层状态h_{t-1} 和** LSTM** 单元的** cell **状态 s_{t-1} 作为该层的输入得到:
e^k_t = v^T_etanh(W_e[h_{t-1};s_{t-1}]+U_ex^k),其中v_e \in R^T,W_e \in R^{T \times 2m},U_e \in R^{T \times T}是需要学习的参数。
输入注意力层的输出 (e^1_t,e^2_t,...,e^n_t) 输入到 softmax 层得到 \alpha_t^k 以确保所有的注意力权重的和为1,\alpha_t^k 表示在时刻 tk 个输入特征的重要性。

得到注意权重后,我们可以自适应的提取驱动序列 \tilde x_t = (\alpha^1_tx^1_t,\alpha^2_tx^2_t,...,\alpha^n_tx^n_t),此时我们更新隐藏层的状态为 h_t = f_1(h_{t-1},\tilde x_t)

2.4 解码器

为了预测输出 \hat y_T,我们使用另外一个 LSTM 网络层来解码编码器的信息,即 隐藏层状态 h_。当输入序列过长时,传统的Encoder-Decoder 模型效果会急速恶化。因此,在解码器部分,我们引入了时间注意力机制来选择相应的隐藏层状态。

与编码器中注意力层类似,解码器的注意力层也需要将之前的隐藏层状态d_{t-1}LSTM 单元的cell状态 s'_{t-1} 作为该层的输入得到该层的输出:
l^i_t = v^T_dtanh(W_d[d_{t-1};s'_{t-1}]+U_dh_i),其中v_d \in R^m,W_d \in R^{m \times 2p},U_e \in R^{m \times m}是需要学习的参数。通过 softmax 层,我们可以得到第 i 个编码器隐藏状态 h_i 对于最终预测的重要性 \beta^i_t。解码器将所有的编码器隐藏状态按照权重求和得到文本向量 c_t = \sum_{i=1}^T \beta_t^ih_i,注意 c_t 在不同的时间步是不同的。

在得到文本向量之后,我们将其和目标序列结合起来得到 \tilde y_{t-1} = \tilde w^T[y_{t-1};c_{t-1}]+\tilde b。利用新计算得到的 \tilde y_{t-1},我们来更新解码器隐藏状态 d_t=f_2(d_{t-1},\tilde y_{t-1}),我们使用 LSTM 来作为激活函数 f_2
通过 DA-RNN 模型,我们预测 \hat y_T = F(y_1,...,y_{T-1},x_1,...,x_T) = v_y^T(W_y[d_T;c_T]+b_w)+b_v

2.5 训练过程

在该模型中,作者使用平均方差作为目标函数,利用 Adam 优化器,min-batch 为128来进行参数优化。
目标函数:
O(y_T,\tilde y_T)=\frac{1}{N}\sum_{i=1}^N(\hat y^i_T-y_T^i)^2

3. 实验

3.1 数据集

本文的作者采用了,两种不同的数据集来测试验证 DA-RNN 模型的效果。这里我们仅对 NASDAQ 100 Stock 数据集进行介绍。作者根据 NASDAQ 100 Stock 收集了 81 家主要公司的股票价格作为驱动时间序列,NASDAQ 100 的股票指数做目标序列。数据收集的频率为一分钟一次。该数据集包含了从2016年7月26日至2016年12月22日总共105天的数据。在本实验中,作者使用 35100 条数据作为训练集,2730条数据作为验证集,以及最后2730条数据作为测试集。

3.2 参数设置和评价指标

时间窗口的大小 T \in \{3,5,10,15,25\}。实验表明 :T=10 时,模型在验证集上的效果最好。编码器和解码器隐藏层的大小 m ,p\in\{16,32,64,128,256\}。当m=p=64,128 时,实验效果最好。

为评估模型的效果,我们考虑了三种不同的评价指标:RSME,MAE,MAPE。

3.3 模型预测

为展示 DA-RNN 模型的效果,作者将该模型和其他的模型在两个不同的数据集上的预测效果进行了对比,如表1所示。由表1可以看出,DA-RNN模型相对于其他模型,误差更小一些。DA-RNN模型在时间序列预测方面具有良好的表现。

image

表 1:SML 2010数据集和纳斯达克100股票数据集的时间序列预测结果

为了更好的视觉比较,我们将Encoder-Decoder 模型,Attention RNN 和 DA-RNN 模型的在纳斯达克100股票数据集上的预测结果在图2中展示出来。我们不难看出DA-RNN模型能更好地反映真实情况。


image

图 3:三种模型在纳斯达克100股票数据集上的预测结果

4. 总结

在本文中,我们介绍了一种基于注意力机制的双阶段循环神经网络模型。该模型由两部分组成:Encoder 和 Decoder。在编码器部分,我们引入了输入注意力机制来对输入特征进行特征提取,为相关性较高的特征变量赋予更高的权重;在解码器部分,我们通过时间注意力机制为不同时间 t 的隐藏状态赋予不同的权重,不断地更新文本向量,来找出时间相关性最大的隐藏层状态。Encoder 和 Decode 中的注意力层分别从空间和时间上来寻找特征表示和目标序列之间的相关性,为不同的特征变量赋予不同的权重,以此来更准确地预测目标序列。
项目源码地址:https://momodel.cn/workspace/5da8cc2ccfbef78329c117ed?type=app

5. 参考资料

  1. 论文:A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction
  2. 注意力机制详解:https://blog.csdn.net/BVL10101111/article/details/78470716
  3. 项目源码:https://github.com/chensvm/A-Dual-Stage-Attention-Based-Recurrent-Neural-Network-for-Time-Series-Prediction
  4. 数据集:https://cseweb.ucsd.edu/~yaq007/NASDAQ100_stock_data.html
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,817评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,329评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,354评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,498评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,600评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,829评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,979评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,722评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,189评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,519评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,654评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,940评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,762评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,993评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,382评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,543评论 2 349

推荐阅读更多精彩内容

  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,882评论 2 64
  • 循环神经网络(recurrent neural network)或RNN(Rumelhart et al.,198...
    单调不减阅读 1,405评论 0 0
  • 今天在微信上,霞子发了一条微信,“好想你们,都一周多没有见到你们了”。短短的一行字,饱含着对朋友的情谊,我都能想...
    花香两岸阅读 337评论 0 0
  • 如图:黑方没有注意红方炮进河口,目的就是挺进一兵,取得微弱的物质优势,进而不断扩大自己的实力。因此,自己一方河口有...
    心平气和断舍离阅读 240评论 0 13
  • 2017年10月28日 自从宝宝上次的作文得到老师的表扬后,宝宝对写作文的自信心和把握度都大大提高。 今天,在写“...
    李华英阅读 174评论 0 0