RNN
RNN常用來處理序列數據,例如我們有10年每月的天氣紀錄要來預測作物收成,我們必須要知道是否有持續好幾天的高溫造成作物收成不佳,此時就需要RNN了,假如我們使用fully-connected,我們不容易知道資料的序列關係。
- RNN的一個例子
假設我們有100年12個月的平均溫度、濕度、日照天數(3個特徵)紀錄共1200筆作為,以及作物收成量作為
,通常RNN我們會把
分成序列(seq)也分成批次(batch)執行。
例如: 序列長度(seq_len)=6就是分成6個月,每次輸入就會有6個時刻(1-5或6-12),然後批次大小(batch_size)=10,每批中有60個序列(sequence),表示一次輸入5年的資料,然後特徵數目(feature_num)=3。
這樣每次輸入的的矩陣形式就為:
RNN只是將上一seq的隱藏層做線性轉換後跟下一seq疊加。
RNN層計算圖
兩層rnn
-
:代表第一個時刻的特徵,例如:1月的平均溫度、平均濕度、日照天數,就會有3個值(ex. [15,40,10])。
-
:代表第二個時刻的特徵,例如:2月的平均溫度、濕度、日照天數,也會有3個值(ex. [18,40,10])。
-
:特徵到隱藏層(hidden layer)的權重(weight),所有時刻共用同一組權重,尺寸為[feature_num,hidden_size]。
-
:隱藏層 到 隱藏層的權重(weight),所有時刻共用同一組權重,尺寸為[hidden_size,hidden_size] ( 因為
是全連接(fully_connected) )。
-
:代表上一個時刻神經元的輸出,最一開始的
可以是零,也可以是上一批最後一個時刻神經元的輸出。
-
:這個時刻的神經元的輸出。
-
:這個時刻的output,也是最後一層rnn的
。
-
:output 也是最後一層rnn的
,也可以從
這個Tensor使用[:]切片取最後一層取值。
原理請參考:
李弘毅老師 ML Lecture 21-1: Recurrent Neural Network (Part I)
循环神经网络RNN介绍1:什么是RNN、为什么需要RNN、前后向传播详解、Keras实现
RNN梯度爆炸解決
pytorch的nn.clip_grad_value_()、nn.clip_grad_norm_()梯度裁剪(使梯度大於或小於某個閥值時直接等於閥值),常用來解決RNN梯度變化大造成的梯度爆炸的問題。
RNN常見的梯度爆炸問題
梯度裁剪
實作
輸入前六個值,預測第7個值
輸入第一個點後,由第一個點預測第二個點,再由那個預測的點預測下一個點。
LSTM
引用李弘毅老師的人體LSTM
引用李弘毅老師的人體LSTM
引用李弘毅老師的人體LSTM
引用李弘毅老師的人體LSTM
LSTM最後一層的ht就是output
實作
Code from Github-gist--Chat robot
Code from Github--sentimebt anasisly
只有epoch 100回
GRU
其他參考:
速記AI課程-深度學習入門(二)
A Beginner's Guide to LSTMs and Recurrent Neural Networks
The Unreasonable Effectiveness of Recurrent Neural Networks
Understanding LSTM Networks