第十七章 时间序列分析及预测

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第十七章 时间序列分析及预测

预测方法:

  • 定性:专家来预测(主观)
  • 定量:当被预测变量过去的信息可用,信息可以被量化,过去的模式会持续到未来的假定合理
    • 时间序列法(仅依赖于历史资料)
    • 因果法(本章不讨论)

通过将时间视为自变量,时间序列视为应变量,回归分析也就可以用于时间序列方法。为了区分,我们表述为截面回归时间序列回归

17.1 时间序列的模式

时间序列(time series):是一个变量在连续时间点或连续时期上测量的观测值的序列。测量可以是每小时,每一天等等。
为了确定数据中的基本模式,第一步是绘制时间序列图(horizontal pattern),这个图是时间和时间序列变量之间关系的图形表述。

17.1.1 水平模式

当数据围绕着一个不变的均值上下波动,则存在水平模式。如下图:

image

平稳时间序列指统计性质是与时间独立的时间序列。含义:

  1. 过程生产的数据有一个不变的均值;
  2. 时间序列的变异性随时间的推移保持不变。

经验环境的改变常常导致现有的水平模式的时间序列移动到一个新的水平。如下图,13周开始增加了新的销售合同。


image

我们不能仅仅通过观测到的水平模式就得出时间序列是平稳的结论。如何确定,可以寻找高级教材来学习。

17.1.2 趋势模式

趋势模式(trend pattern):时间序列呈现随机起伏,但是一段较长的时间内呈现出改变的趋势。
例子1:下图展示某厂近十年自行车销售量的时间序列:

image

例子2:下图展示公司胆固醇药物获得FDA批准后的销售收入。


image

17.1.3 季节模式

季节模式(seasonal pattern):指超过一年的周期内,由于季节的影响,时间序列呈现重复模式(俗称各行业每年的淡旺季)。当然小于一年的周期,时间序列也会呈现重复模式,如每天地铁人流量。
举例:5年内雨伞销售量(不仔细看以为水平模式)

image

17.1.4 趋势与季节模式

有的时间序列同时包含趋势模式和季节模式。


image

17.1.5 循环模式

如果时间序列图显示出持续时间超过一年的在趋势线上下交替的点序列,则存在循环模式(cyclical pattern),例如经济周期。有时循环影响常常和长期趋势影响合并。

17.1.6 选择预测方法

选择预测方法的流程:

  1. 绘制时间序列图。
  2. 通过观察来选择模式。

17.2 预测精度

朴素预测法用上一个时间段的时间序列值作为下一个时间段的预测值。
预测误差=实际值-预测值

image

image

如何对预测精度进行度量:

  • 预测误差的平均值:5/11=0.45
  • 平均绝对误差(mean absolute error)(可以避免正负预测误差相互抵消):MAE=\frac{41}{11}=3.73
  • 均方误差(mean squared error):MSE=\frac{179}{11}=16.27

但是上述的方法依赖于原始数据的测量尺度,如果以月为单位,则数值就会非常大。

  • 平均绝对百分数误差(mean absolute percentage error):MAPE=\frac{\sum |\frac{预测误差绝对值}{预测值}|}{预测值个数} \times 100%

调整预测方法,采用过去数值平均数法,即第n周的预测值为n周前的所有时间序列值的平均数。
得到:

  • MAE(平均绝对误差)=2.44
  • MSE(均方误差)=8.10
  • MAPE(平均绝对百分数误差)=12.85%
image

17.3 移动平均法和指数平滑法

针对水平模式的时间序列的三种预测方法:

  • 移动平均法
  • 加权移动平均法
  • 指数平滑法

17.3.1 移动平均法

移动平均法(moving average):最近k期数据值的平均值,即k阶移动平均预测:
F_{t+1}=\frac{最近k期数据值的和}{k}=\frac{Y_t+Y_{t-1}+\cdots+Y_{t-k+1}}{k}
其中,F_{t+1}代表时间序列t+1的预测值,Y_t代表时间序列t的实际值。

k小能够快速追踪时间序列的移动,k大能有效消除随机波动。
举例,汽油销售数量,取k=3


image

预测精度:(k=3)

  • MAE=\frac{24}{9}=2.67
  • MSE=\frac{92}9{}=10.22
  • MAPE\frac{129.21}{9}=14.36%

当k=1时,即朴素预测法,预测精度会下降。我们可以取不同的k来取得当MSE最小时k=6。

17.3.2 加权移动平均法

加权移动平均和移动平均法(每个观测值权重相同)类似,
例如(k=3):F_{t+1}=Y_t\times \frac{3}{6}+Y_{t-1}\times \frac{2}{6}+Y_t\times \frac{1}{6}
其中权重和要为1。

预测精度:
一般来说越近的数据权重越大,但是当数据波动比较大时可以用移动平均法(即权重相同)。为了给出最好的权重组合,可以使用MSE作为预测精度的测度,然后找到MSE最小的数据值个数和权重组合。

17.3.3 指数平滑法

指数平滑法:是加权移动平均法的一个特例。
指数平滑预测:F_{t+1}=\alpha Y_t+(1-\alpha)F_t
其中,Y_t代表时间序列t期的实际值,F_t代表时间序列t期的预测值,\alpha代表平滑常数。
简单说t+1期的预测值和t期的观测值和预测值的加权平均数。t期实际值的权重为平滑常数\alpha

其中,强行规定F_1=Y_1,任意预测值都是所有实际值的加权平均值。

预测精度:
经过变换:F_{t+1}=F_t+\alpha(Y_t-F_t)

  • 当数据波动比较大时,我们倾向于选择较小的平滑常数\alpha
  • 当数据波动比较小时,我们倾向于选择较大的平滑常数\alpha,因为此时预测误差更可能表示序列水平的改变。

我们需要选择合适的平滑常数\alpha来使MSE最小。如\alpha=0.20.3时的汽油销售数量:

image

image

通过比较我们选择一个合适的平滑常数\alpha

17.4 趋势推测法

17.4.1 线性趋势回归

下面是自行车销量的时间序列和线性函数的描述:


image

线性趋势方程T_t=b_0+b_1t
计算线性趋势的斜率和截距公式

  • b_1=\frac{\sum_{t=1}^n(t-\bar t)(Y_t-\bar Y)}{\sum_{t=1}^n(t-\bar t)^2}
  • b_0=\bar Y-b_1\bar t
    其中Y_t为t期的时间序列值(即观测值)

经过下表计算得到b_1=1.1,b_0=20.4,线性趋势方程:t_t=20.4+1.1t

image

预测精度:
MSE=\frac{\sum_{t=1}^n(Y_t-F_t)^2}{n}=3.07,计算过程如下。

image

计算机计算更快:


image

在上图的方差分析(ANOVA)表中,MSE=\frac{误差平方和}{自由度}=\frac{30.7}{8}=3.837

上面的两个MSE的计算中,分母不一样。前者的MSE是误差平方的平均数。

17.4.2 Holt线性指数平滑

相比之前的指数平滑预测:F_{t+1}=\alpha Y_t+(1-\alpha)F_t,Holt线性指数平滑方程需要两个平滑常数\alpha,\beta和三个方程得到预测。

  • L_t=\alpha Y_t+(1-\alpha)(L_{t-1}+b_{t-1}) 实质是t期观测值和t期的预测值(用t-1期的数据预测)的加权平均数,一般\alpha给的值较大
  • b_t=\beta(L_t-L_{t-1})+(1-\beta)(b_{t-1}) 观测的斜率(t之下的)占\beta\beta一般较大)
  • F_{t+k}=L_t+b_tk
    其中的含义
  • L_t是t期时间序列的估计值;
  • b_t是t期时间斜率的估计值;
  • F_{t+k}是向前k期的预测值。
  • 规定:
    • L_1=Y_1 t=1的预测值为t=1的观测值
    • b_1=Y_2-Y_1

对自行车销量的时间序列进行Holt线性指数平滑法的计算(表里的预测值F_t都是按照k=1来算的)

image

可以计算得到MSE=\frac{39.678}{9}=4.41,我们可以调整\alpha,\beta来使得MSE更小。

预测:F_{11}=L_{10+b_{10}\times 1}=33.391

17.4.3 非线性趋势回归

举例:胆固醇药物10年的销售收入。


image

我们看到图展示出了曲线趋势,因此我们使用下面两种曲线。

二次趋势方程T_t=b_0+b_1t+b_2t^2
我们可以把这个看作一般线性模型,有两个变量t,t^2,通过计算机得到下面的结果。

image

指数趋势方程T_t=b_0(b_t)^t

image

指数趋势方程可以通过对数变换,然后再铜鼓哦一般的线性模型方法计算。

17.5 季节性和趋势

首先考虑没有趋势的季节性时间序列,再考虑如何模拟有趋势的季节性。

17.5.1 没有趋势的季节性

举例:5年共20个季度的雨伞销售量


image

前面讲到分类变量中k个处理水平,需要k-1个虚拟变量。对应4个季度需要3个虚拟变量。
通过计算得到:Sales=95+29Qtr1+57Qtr2+26Qtr3
其中Qtr1为1时代表第一季度,当所有Qtr都为0代表第四季度。

image

17.5.2 季节性和趋势

举例:4年共16个季度的电视机销售量的时间序列。


image

模拟电视机时间序列的季节影响和线性趋势的多元回归方程的一般形式:\hat Y_t=b_0+b_1Qtr1+b_2Qtr2+b_3Qtr3+b_4t
针对下表的数据计算得到结果:

image

image

相当于四条线性回归,同样的斜率不同的截距。

17.5.3 基于月度数据的模型

12个月份需要11个虚拟变量:


image

17.6 时间序列分解法

时间序列分解可以将时间序列分隔或分解出季节、趋势和不规则成分。常见有加法分解模型乘法分解模型
加法分解模型Y_t=Trend_t+Seasonal_t+Irregular_t
适用于季节影响不依赖于时间序列水平的情况。

乘法分解模型Y_t=Trend_t \times Seasonal_t \times Irregular_t
其中季节和不规则成分相乘按相对量度量,数值大于1则表明它们的影响在趋势之上,数值小于1表明他们的影响在趋势之下。

17.6.1 计算季节指数

image

我们观察到销售量时间序列存在季节模式,我们先计算移动平均数,目的是提出组合在一起的季节和不规则影响,留下来的只包含趋势和移动平均的随机波动。

这里每个移动平均数选择4项数据,第一个为14;第二个为25以此类推。第一个移动平均数对应季度值是2.5(1、2、3、4的中心为2.5),同理第二个移动平均数对应的季度值是3.5。由于实际上季度不存在小数,所以我们再计算第一个和第二个移动平均数的均值得到中心化移动平均值,此时对应的季度值为3(2.5和3.5的均值)

image

中心化的移动平均数描绘数据中的趋势(包含没剔除掉的随机波动)

我们通过变换得到季节-不规则值的组合值。即\frac{Y_t}{Trend_t}=Seasonal_t \times Irregular_t

其中趋势值即为中心化移动平均数,经过计算得到下表:


image

image

其中三季度的季节不规则值有3个,我们取其均值作为第三季度的季节影响值=\frac{1.096+1.075+1.109}{3}=1.09汇总4个季节后得到下表:

image

取得季节指数后,需要做最后的调整使得季节指数的平均值为1。调整方法:按比例调整。

17.6.2 消除季节影响的时间序列

剔除季节影响的时间序列称为消除季节影响的时间序列,剔除方法:观测值除以对应的季节指数来消除时间序列的季节影响。
剔除后只剩趋势和随机波动。

image

17.6.3 利用消除季节影响的时间序列确定趋势

为了确定趋势,我们观察图形后使用线性趋势方程来拟合消除季节影响的时间序列。(使用消除季节影响后的数据)
T_t=b_0+b_tt
经过计算得到:

image

目前只有16个季度的数据,但我们可以把时期17代入即可预测。

17.6.4 季节调整

使用消除季节影响的趋势推测值乘以季节指数即可。
(5.10+0.145Period)\times 季节指数

17.6.5 根据月度数据的模型

要使用12哥约的移动平均数来计算12个月的季节指数。

17.6.6 循环成分

乘法模型可以扩展到包括循环成分:Y_t=Trend_t \times Cyclical_t \times Seasonal_t \times Irregular_t
这里加入了Cyclical_t可以表示为趋势的百分比,这里的循环成分归因于时间序列的多年循环(类似季节),时间周期很长,所以要获得足够的数据很困难。一般也很难剔除循环影响。
因此实践中常常合并,称为趋势-循环组合成分

注意:有时月份的天数也会影响,我们可以把一个月的销售额除以天数再成仪30.4167得到月销售的数值。


链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容