时间序列

原创:张春阳

用这些模型扩展你的时间序列库

Regularizing, Bagging, Stacking

时间序列数据通常有四个组成部分:

  • Autoregression
  • Seasonality
  • Trend
  • Residual

如果能够预测这些成分,你几乎可以预测任何时间序列。听起来很简单,对吧?

但是不完全是这样。关于指定模型的最佳方法有很多不好确定的地方,为了能够更好地解释这些元素,过去几年中已经发布了许多研究来寻找最佳方法,最先进的模型,其中以递归和其他神经网络模型占据了中心地位。除此之外,许多系列还有其他需要考虑的影响,比如假期和规律性的休息。

总而言之,预测任何给定的序列通常不像使用线性回归那么容易。非线性估计和集成方法可以与线性方法相结合,以找到任何序列的最佳方法。在这篇文章中,我从 Scitkit 学习库中拿出了这些模型的示例,以及如何利用它们来最大限度地提高准确性。这些方法应用于每日访客数据集,可在 KaggleRetressionIt 上找到 2000 多个观测值。

这篇博文的结构相当重复,每个应用模型都有相同的图表和评估指标。如果您已经熟悉了 Scikit 中的机器学习模型和 API,比如 MLR、XGBoost 等,那么可以直接跳到 Bagging 和 Stacking 部分来看它们之间的差异性的对比。你可以在 GitHub 上找到完整的笔记本。

准备模型

所有模型都使用 scalecast 软件包运行,该软件包包含结果,并围绕时间序列数据包装 Scikit learn 和其他模型。默认情况下,其所有预测都使用动态多步预测,与平均一步预测相比,它在整个预测期内返回更合理的准确性/误差指标。

pip install scalecast

我们将使用60天的预测期,也将使用60天集来验证每个模型并调整其超参数。所有模型将在20%的原始数据上进行测试:

f=Forecaster(y=data['First.Time.Visits'],current_dates=data['Date'])
f.generate_future_dates(60)
f.set_test_length(.2)
f.set_validation_length(60)

从 EDA(此处未显示)来看,过去4周内似乎存在自相关,前7个因变量滞后可能是显著的。

f.add_ar_terms(7) # 7 auto-regressive terms
f.add_AR_terms((4,7)) # 4 seasonal terms spaced 7 apart

对于该数据集,必须考虑几个季节性因素,包括每日、每周、每月和季度波动。

f.add_seasonal_regressors(
    'month',
    'quarter',
    'week',
    'dayofyear',
    raw=False,
    sincos=True
) # fourier transformation
f.add_seasonal_regressors(
    'dayofweek',
    'is_leap_year',
    'week',
    raw=False,
    dummy=True,
    drop_first=True
) # dummy vars

最后,我们可以通过添加年份变量来模拟该系列的趋势:

f.add_seasonal_regressors('year')

对于所有这些模型,通常需要向它们提供平稳的时间序列数据。我们可以通过增强的Dickey Fuller测试确认该数据是平稳的:

MLR

我们将从简单开始,尝试应用多元线性回归(MLR)。该模型快速、简单,无需调整超参数。它通常具有极高的准确性,即使使用更先进的方法也很难击败它。

它假设模型中的所有组件可以以线性方式组合,以预测最终输出:

上图公式中,j 是增加的回归数(在我们的例子中,AR、季节和趋势分量),α 是相应的系数。在我们的代码中,调用此函数如下所示:

f.set_estimator('mlr')
f.manual_forecast()

值得注意的是,时间序列的线性方法更常见的模型是 ARIMA,它也使用序列的误差作为回归。MLR假设序列的误差是不相关的,这在时间序列中是虚假的。也就是说,在我们的分析中,使用 MLR 获得了13%的测试集平均绝对百分比误差和76%的 R2。让我们看看是否可以通过增加复杂性来克服这一点。

Lasso

接下来回顾的三个模型,Lasso、Ridge 和 ElasticNet,都使用 MLR 的相同基础函数进行预测,但系数的估计方式不同。有 L1 和 L2 正则化参数,用于减小系数的大小,从而减少过度拟合,并可导致更好的异常值的预测。在我们的案例中,这可能是一种很好的尝试方法,因为 MLR 的样本内 R2 得分为 95%,显著大于样本外 R2 的 76%,表明过度拟合。

有一个参数可以用套 Lasso 估计——L1 惩罚参数的大小,或alpha。我们可以通过对验证数据集进行100个 alpha 值的网格搜索来实现这一点。看起来是这样的:

f.add_sklearn_estimator(Lasso,'lasso')
f.set_estimator('lasso')
lasso_grid = {'alpha':np.linspace(0,2,100)}
f.ingest_grid(lasso_grid)
f.tune()
f.auto_forecast()

Lasso(以及 Ridge 和 ElasticNet)使用缩放输入,以便惩罚参数平衡到所有系数,这一点很重要。默认情况下,Scalecast 使用 MinMax 缩放器。

选择的最佳 α 值为 0.081。该模型既没有提高MLR模型的样本外精度,也没有减少过拟合。我们可以用 Ridge 模型再试一次。

Ridge

Ridge 与 Lasso 类似,只是它使用 L2 惩罚。这里的区别在于,L1惩罚可以将某些系数减少到零,而Ridge 只能将系数减少到接近零。通常,这两种模型都会产生相似的结果。我们可以使用为 Lasso 模型创建的网格来调 Ridge 模型。

f.set_estimator('ridge')
f.ingest_grid(lasso_grid)
f.tune()
f.auto_forecast()

Ridge 的最佳 α 选择为0.384,其结果与 Lasso 模型相似。我们还有一个可以将正则化应用于 MLR 的模型:ElasticNet。

ElasticNet

Scikit learn 提供的 ElasticNet 模型将使用线性模型预测输出,但现在它将混合 L1 和 L2 惩罚。现在需要调整的关键参数包括:

  • L1/L2 惩罚系数 (l1_ratio )
  • 惩罚值 (alpha )

Scalecast 为 ElasticNet 提供了一个很好的默认验证网格,所以我们不必创建一个。

f.set_estimator('elasticnet')
f.tune()
f.auto_forecast()

ElasticNet 的最佳参数是 l1_ration 1(相当于套索模型),alpha 为 0.3。它的性能与 Lasso 和 Ridge 模型相当,并且再次没有减少过度拟合。

Random Forest

在用尽了几种线性方法来估计这个序列之后,我们可以转向非线性方法。其中最流行的是随机森林,这是一种基于树的集成方法。它的功能是用原始数据集的自举样本(带替换的采样)聚合多个树估计量。每个样本可以利用原始数据集的不同行和列,最终结果是应用于每个样本的指定数量的底层决策树估计数的平均值。

对于使用随机森林进行时间序列预测,人们不时提出一些批评,例如估计值不能大于最大观测值或小于最小观测值。有时,这个问题可以通过确保平稳数据只提供给估计器来避免。但一般来说,这个模型并不以其时间序列的威力而闻名。让我们看看在这个示例中它是如何工作的。我们可以指定自己的验证网格。

rf_grid= {
     'max_depth':[2,3,4,5],
     'n_estimators':[100,200,500],
     'max_features':['auto','sqrt','log2'],
     'max_samples':[.75,.9,1],
}

然后运行预测。

f.set_estimator('rf')
f.ingest_grid(rf_grid)
f.tune()
f.auto_forecast()

从现在开始,我必须粘贴两个表格用于模型基准测试,否则就无法阅读。下表的行与上表中列出的模型相对应。

不幸的是,我们在 Random Forest 上运气不太好。它的表现比之前评估的要差得多。然而,一旦我们用 BaggingRegressionor 模型概述预测,这里介绍的 bootstrapped sampling 的概念将是完整的。

XGBoost

XGBoost 是一个很难简单解释的模型,所以如果读者感兴趣的话,我会按照这里(对于初学者)和这里(对于深入研究)的文章来做。其基本思想是,与随机森林类似,通过一系列决策树进行估计,最终结果是每个基础估计的加权平均数。与随机森林不同的是,树是按顺序建造的,每个后续的树都对之前的树的残差进行建模,希望尽可能减少最终的残差。抽样不是随机的,而是基于前一棵树的弱点。通过这种方式,结果是通过增加样本来获得的,而随机森林使用 bootstrapped aggregation,其中每个树和样本独立于其他树和样本。这是对数据分布下真正发生的事情的过分简化,因此,如果这个解释不能让你满意,请阅读上述 XGBoost 的文章。在这样的模型中有许多超参数需要调整,我们可以构建如下网格:

xgboost_grid = {
     'n_estimators':[150,200,250],
     'scale_pos_weight':[5,10],
     'learning_rate':[0.1,0.2],
     'gamma':[0,3,5],
     'subsample':[0.8,0.9]
}

评估模型:

f.set_estimator('xgboost')
f.ingest_grid(xgboost_grid)
f.tune()
f.auto_forecast()

XGBoost 在测试集上的 MAPE 结果超过 MLR 12% 。然而,更加过分的是,样本中的 R2 分数接近100%。

到目前为止,希望您了解这些模型是如何构建和评估的。在提供的 notebook 中,您还可以看到LightGBM(微软的增强树模型,类似于XGBoost)、随机梯度下降和K近邻的示例。为了简洁起见,我将跳到 Baggign 和 Stacking 模型来完成这篇文章。

Bagging

来自Scikit learn的 BaggingRegressor 使用了本文随机森林部分中介绍的 Same Sampling 的概念,但我们可以使用任何我们喜欢的模型,而不是每个基础估计量都是一棵决策树。在本例中,我指定了10个多层感知器神经网络模型,每个模型有三层,每层100个单元,以及LBFGS解算器。每个数据子集都可以使用原始数据集大小的90%对观测值进行采样,还可以随机使用原始数据集50%的特征。在代码中,它如下所示:

f.add_sklearn_estimator(BaggingRegressor,'bagging')
f.set_estimator('bagging')
f.manual_forecast(
     base_estimator= MLPRegressor(
         hidden_layer_sizes=(100,100,100),
         solver='lbfgs'
     ),
     max_samples= 0.9,
     max_features= 0.5,
)

该模型迄今为止表现最好,测试集 MAPE 为 11%,测试集 R2 得分为 79%。在XGBoost和MLR这两个相同的指标下,这比下一个最好的模型要好得多。

Stacking

最后一个模型是StackingRegressionor。它创建了一个新的估计器,该估计器使用来自其他指定模型的预测来创建最终预测。它通过传递给 final_estimator 参数的估计器进行最终预测。

在我们的例子中,我们将对该数据集上评估最佳样本的四个模型进行叠加:

  • K-nearest Neighbors (KNN)
  • XGBoost
  • LightGBM
  • Stochastic Gradient Descent (SGD)

最终估计量是我们在上一节中定义的 bagging 估计量。

使用 BaggingRegressionor 作为最终估计器的优势在于,即使 KNN 和 XGBoost 模型是高度过拟合的,MLP 模型在概念上也应该相应地人为地将其预测加权,因为该模型仅使用输入任何给定MLP模型的一半特征进行训练,它还应该学会相信两个模型的预测,这两个模型并没有过度拟合:LightGBM 和 SGD。因此,对模型的评估如下:

f.add_sklearn_estimator(StackingRegressor,'stacking')
f.set_estimator('stacking')
results = f.export('model_summaries')
estimators = [
    ('knn',
     KNeighborsRegressor(**results.loc[results['ModelNickname'] == 'knn','HyperParams'].values[0])),
    ('xgboost',
     XGBRegressor(**results.loc[results['ModelNickname'] == 'xgboost','HyperParams'].values[0])),
    ('lightgbm',
     LGBMRegressor(**results.loc[results['ModelNickname'] == 'lightgbm','HyperParams'].values[0])),
    ('sgd',
     SGDRegressor(**results.loc[results['ModelNickname'] == 'sgd','HyperParams'].values[0])),
]

final_estimator = BaggingRegressor(
    base_estimator = MLPRegressor(
        hidden_layer_sizes=(100,100,100),
        solver='lbfgs',
    ),
    max_samples = 0.9,
    max_features = 0.5,
)

f.manual_forecast(estimators=estimators,final_estimator=final_estimator)

增加模型的复杂性并不总是能改善结果,但这似乎就是这里发生的事情。我们的叠加模型明显优于其他模型,测试集MAPE为10%,测试集R2得分为83%。它还具有与评估的MLR相当的样本内指标。

Backtesting

为了进一步验证我们的模型,我们可以对它们进行反向测试。这是一个迭代评估其在过去n个预测期内的准确性的过程,以查看如果实施该模型,只根据每个预测期之前的观测值进行训练,实际会取得什么结果。默认情况下,scalecast选择10个预测范围,其长度由对象中生成的未来日期的数量决定(在本例中为60)。下面是它在代码中的样子:

f.backtest('stacking')
f.export_backtest_metrics('stacking')

这告诉我们,平均而言,使用60天的预测长度,我们的模型将获得 7% 的 MAPE 分数和 76% 的R2。这是一个很好的方法,可以验证模型不仅仅是幸运地得到了特定的测试集,而且实际上可以推广到看不见的数据。

总结

这篇文章介绍了几种预测的建模概念,包括线性方法(MLR、套索、岭)、树集合(随机森林、XGBoost、LightGBM)、Bagging 和 Stacking。通过增加非线性方法的复杂度,并使用巧妙的抽样方法,我们在一个包含大约 400 个观察值的测试集上获得了 10% 的测试集 MAPE 分数。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容