- 对于时序数据or图像,不同的filters、kernel_size、strides意味着输出不同的高维特征。
- 同一份数据,如何增强网络的表达能力。使得更宽的网络能达到相较深度网络更好的结果?这是本篇文章需要解决的问题。
- 数据说明见上篇文章 //www.greatytc.com/p/21b96d597367
网络结构
# 定义多通道特征组合模型
def build_multi_cr_lstm_model(ts, fea_dim):
# 定义输入
inputs = Input(shape = (ts, fea_dim))
# ########################################
# cnn层&lstm层1
cnn_left_out1 = Conv1D(filters=50, kernel_size=6, strides=3, kernel_initializer=he_normal(seed=3))(inputs)
act_left_out1 = LeakyReLU()(cnn_left_out1)
lstm_left_out1 = LSTM(64, activation='sigmoid', dropout=0.1, return_sequences=False,
kernel_initializer=he_normal(seed=10))(act_left_out1)
# #########################################
# cnn层&lstm层2
cnn_right_out1 = Conv1D(filters=50, kernel_size=12, strides=3, kernel_initializer=he_normal(seed=3))(inputs)
act_right_out1 = LeakyReLU()(cnn_right_out1)
lstm_right_out1 = LSTM(64, activation='sigmoid', dropout=0.1, return_sequences=False,
kernel_initializer=he_normal(seed=10))(act_right_out1)
# #########################################
# cnn层&lstm层3
cnn_mid_out1 = Conv1D(filters=50, kernel_size=6, strides=2, kernel_initializer=he_normal(seed=3))(inputs)
act_mid_out1 = LeakyReLU()(cnn_mid_out1)
lstm_mid_out1 = LSTM(64, activation='sigmoid', dropout=0.1, return_sequences=False,
kernel_initializer=he_normal(seed=10))(act_mid_out1)
# ############################################
# 上层叠加新的dense层
concat_output = Concatenate(axis=1)([lstm_left_out1, lstm_mid_out1, lstm_right_out1])
outputs = Dense(1)(concat_output)
model_func = Model(inputs=inputs, outputs=outputs)
model_func.compile(loss='mse', optimizer=Adam(lr=0.002, decay=0.01), metrics=['mse'])
return model_func
- 可见inputs分别作为3个网络的输入数据。CNN1+LSMT1、CNN2+LSTM2、CNN3+LSTM3分别获取到了3份高维特征,最后接入dense层输出预测结果
预测结果与上面文章中结果的对比
-
baseline效果:
归一化的mse和原始mse分别为0.00167、1606
-
复杂网络cnn+lstm单通道效果:
归一化的mse和原始mse分别为0.0009066、869
-
复杂网络cnn+lstm多通道效果:
归一化的mse和原始mse分别为0.0008297、795
可见复杂网络的效果提升极为明显,mse降低了足足50%,但是多通道相对单通道的提升相对较少。若追求时间性能,可能多数情况下cnn+lsmt+dense的单通道已经能够满足需求
效果提升的原因猜想
- 不同参数设置的cnn获得了不同的高维特征表达,丰富了模型的特征输入,因此获得了更好的预测效果
拟合曲线对比
-
一图为深度lstm网络拟合图、二图为cnn+lstm单通道拟合图、三图为cnn+lstm多通道网络拟合图
思考
针对不同的数据,如何应用相同的复杂网络,这是下一步需要思考的问题。以及attention的引入