偏最小二乘回归可用于解决多重共线性问题,其用途比主成分回归更为广泛。最初由经济计量学家Herman Wold于20世纪70年代提出比较系统的算法体系,被许多统计学家称为“第二代多元统计分析方法”。
偏最小二乘回归综合了线性回归、主成分分析及典型相关分析的优点,其目的是研究多因变量对多自变量的回归建模,能够在自变量存在严重相关性条件下建模,尤其适用于含量较小的情形。
偏最小二乘回归的SAS程序主要通过proc pls过程实现:
proc pls <option(s)>;
model 因变量=自变量 </option(s)>;
run;
proc pls命令常用的选项有:
** cv=:**指定交叉确认方法以确定适当因子数。常用的有cv=one,cv=split, cv=block, cv=random
cvtest: 对交叉确认方法选择的不同成分的模型进行比较检验
method=: 指定因子提取方法,常用有pls(偏最小二乘回归法)、pcr(主成分回归法)、rrr(降秩法);这些方法在多因变量分析时由于侧重不同有较大的差别;单因变量分析时差别不大,可直接选method=pls
model语句常用的选项有:
solution:给出以0为中心的标准化(即均数为0,标准差为1)回归系数和原始变量的回归系数
SAS程序例子
结果分析
第一部分 交叉确认法确定提取的因子数并给出检验结果
看上面的第三个表:第1列为提取因子数,第4列为提取相应因子数与PRESS(预测残差平方和)最小因子数相比的P值。
结果显示:
- 提取1个因子与提取2个因子所提供的信息并无统计学差异(P=0.4920);
- 提取3个因子与提取2个因子所提供的信息也无统计学差异(P=0.8630)。
再看第四个表:第一行结果为2,第二行结果为0.3651,提示提取两个因子时PRESS均方最小(0.3651);第三行结果为1,表明最小因子数为1,且1个因子的模型与2个因子的模型相比无统计学差异。既然差别不大,从简化角度来看,提取1个因子显然比提取2个或3个因子更为可取。
第二部分 偏最小二乘回归法提取因子及其贡献率
结果表明:
- 提取的1个因子已经涵盖了97.39%的自变量信息以及88.57%的因变量信息。
第三部分 标准化回归系数估计
第四部分 原始变量的回归系数估计
得最终原始变量的模型为:
xin = -14.13105929 + 0.26465955 x height + 0.42241598 x weight + 0.56172162 x cir
偏最小二乘回归应用特点:
- 适用于样本含量相对较小的情形,甚至可用于样本含量小于自变量数的特殊情况。(传统线性回归一般要求样本含量是自变量个数的5~10倍)
- 适宜处理多因变量和多自变量的数据,尤其是因变量之间和自变量之间均存在较强相关性的情形。
- 偏最小二乘回归可利用VIP(variable important forprojection)指标进行变量筛选。
偏最小二乘回归变量筛选
SAS程序
结果:
结果显示:
- 三个变量的VIP非常接近,表明三个自变量对因变量的影响大小差不多,很难确认删除哪个。如果用多重性回归进行逐步回归分析,结果只能保留体重一个变量,显然过于片面。(逐步回归过程略)