回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的 t 检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用 logistic 回归代替。
众多回归的名称张口即来的就有一大片,线性回归、logistic 回归、cox 回归、poission 回归、probit 回归等等等等,可以一直说的你头晕。为了让大家对众多回归有一个清醒的认识,这里简单地做一下总结:
线性回归
1, 先说线性回归,这是我们学习统计学时最早接触的回归,就算其它的你都不明白,最起码你一定要知道,线性回归的因变量是连续变量,自变量可以是连续变量,也可以是分类变量。如果只有一个自变量,且只有两类,那这个回归就等同于 t 检验。如果只有一个自变量,且有三类或更多类,那这个回归就等同于方差分析。如果有 2 个自变量,一个是连续变量,一个是分类变量,那这个回归就等同于协方差分析。所以线性回归一定要认准一点,因变量一定要是连续变量。当然还有其它条件,比如独立性、线性、等方差性、正态性,这些说起来就话长了,读者有兴趣的话可以阅读参考文献。
logistic 回归
2, logistic 回归,与线性回归并成为两大回归,应用范围一点不亚于线性回归,甚至有青出于蓝之势。因为 logistic 回归太好用了,而且太有实际意义了。解释起来直接就可以说,如果具有某个危险因素,发病风险增加 2.3 倍,听起来多么地让人通俗易懂。线性回归相比之下其实际意义就弱了。logistic 回归与线性回归恰好相反,因变量一定要是分类变量,不可能是连续变量。分类变量既可以是二分类,也可以是多分类,多分类中既可以是有序,也可以是无序。二分类 logistic 回归有时候根据研究目的又分为条件 logistic 回归和非条件 logistic 回归。条件 logistic 回归用于配对资料的分析,非条件 logistic 回归用于非配对资料的分析,也就是直接随机抽样的资料。无序多分类 logistic 回归有时候也成为多项 logit 模型,有序 logistic 回归有时也称为累积比数 logit 模型。这些也在参考文献有所介绍,大家可以参考一下。
cox 回归
3, cox 回归,cox 回归的因变量就有些特殊,因为他的因变量必须同时有 2 个,一个代表状态,必须是分类变量,一个代表时间,应该是连续变量。只有同时具有这两个变量,才能用 cox 回归分析。cox 回归主要用于生存资料的分析,生存资料至少有两个结局变量,一是死亡状态,是活着还是死亡?二是死亡时间,如果死亡,什么时间死亡?如果活着,从开始观察到结束时有多久了?所以有了这两个变量,就可以考虑用 cox 回归分析。
poisson 回归
4, poisson 回归,poisson 回归相比就不如前三个用的广泛了。但实际上,如果你能用 logistic 回归,通常也可以用 poission 回归,poisson 回归的因变量是个数,也就是观察一段时间后,发病了多少人?或者死亡了多少人?等等。其实跟 logistic 回归差不多,因为 logistic 回归的结局是是否发病,是否死亡,也需要用到发病例数、死亡例数。大家仔细想想,其实跟发病多少人,死亡多少人一个道理。只是 poission 回归名气不如 logistic 回归大,所以用的人也不如 logistic 回归多。但不要因此就觉得 poisson 回归没有用。
probit 回归
5, probit 回归,在医学里真的是不大用,最关键的问题就是 probit 这个词太难理解了,通常翻译为概率单位。probit 函数其实跟 logistic 函数十分接近,二者分析结果也十分接近。可惜的是,probit 回归的实际含义真的不如 logistic 回归容易理解,由此导致了它的默默无名,但据说在社会学领域用的似乎更多一些。
负二项回归
6,负二项回归。所谓负二项指的是一种分布,其实跟 poission 回归、logistic 回归有点类似,poission 回归用于服从 poission 分布的资料,logistic 回归用于服从二项分布的资料,负二项回归用于服从负二项分布的资料。说起这些分布,大家就不愿意听了,多么抽象的名词,我也很头疼。如果简单点理解,二项分布你可以认为就是二分类数据,poission 分布你可以认为是计数资料,也就是个数,而不是像身高等可能有小数点,个数是不可能有小数点的。负二项分布呢,也是个数,只不过比 poission 分布更苛刻,如果你的结局是个数,而且结局可能具有聚集性,那可能就是负二项分布。简单举例,如果调查流感的影响因素,结局当然是流感的例数,如果调查的人有的在同一个家庭里,由于流感具有传染性,那么同一个家里如果一个人得流感,那其他人可能也被传染,因此也得了流感,那这就是具有聚集性,这样的数据尽管结果是个数,但由于具有聚集性,因此用 poission 回归不一定合适,就可以考虑用负二项回归。既然提到这个例子,我在上一篇文章说了,用于 logistic 回归的数据通常也能用 poission 回归,就像上面案例,我们可以把结局作为二分类,每个人都有两个状态,得流感或者不得流感,这是个二分类结局,那就可以用 logistic 回归。但是这里的数据存在聚集性怎么办呢,幸亏 logistic 回归之外又有了更多的扩展,你可以用多水平 logistic 回归模型,也可以考虑广义估计方程。这两种方法都可以处理具有层次性或重复测量资料的二分类因变量。
weibull 回归
7,weibull 回归,有时中文音译为威布尔回归。weibull 回归估计你可能就没大听说过了,其实这个名字只不过是个噱头,吓唬人而已。上一篇说过了,生存资料的分析常用的是 cox 回归,这种回归几乎统治了整个生存分析。但其实夹缝中还有几个方法在顽强生存着,而且其实很有生命力,只是国内大多不愿用而已。weibull 回归就是其中之一。cox 回归为什么受欢迎呢,因为它简单,用的时候不用考虑条件(除了等比例条件之外),大多数生存数据都可以用。而 weibull 回归则有条件限制,用的时候数据必须符合 weibull 分布。怎么,又是分布?!估计大家头又大了,是不是想直接不往下看了,还是用 cox 回归吧。不过我还是建议看下去。为什么呢?相信大家都知道参数检验和非参数检验,而且可能更喜欢用参数检验,如 t 检验,而不喜欢用非参数检验,如秩和检验。那这里的 weibull 回归和 cox 回归基本上可以说是分别对应参数检验和非参数检验。参数检验和非参数检验的优缺点我也在前面文章里通俗介绍了,如果数据符合 weibull 分布,那么直接套用 weibull 回归当然是最理想的选择,他可以给出你最合理的估计。如果数据不符合 weibull 分布,那如果还用 weibull 回归,那就套用错误,肯定结果也不会真实到哪儿去。所以说,如果你能判断出你的数据是否符合 weibull 分布,那当然最好的使用参数回归,也就是 weibull 回归。但是如果你实在没什么信心去判断数据分布,那也可以老老实实地用 cox 回归。cox 回归可以看作是非参数的,无论数据什么分布都能用,但正因为它什么数据都能用,所以不可避免地有个缺点,每个数据用的都不是恰到好处。weibull 回归就像是量体裁衣,把体形看做数据,衣服看做模型,weibull 回归就是根据你的体形做衣服,做出来的肯定对你正合身,对别人就不一定合身了。cox 回归呢,就像是到商场去买衣服,衣服对很多人都合适,但是对每个人都不是正合适,只能说是大致合适。至于到底是选择麻烦的方式量体裁衣,还是图简单到商场直接去买现成的,那就根据你的喜好了,也根据你对自己体形的了解程度,如果非常熟悉,当然就量体裁衣了。如果不大了解,那就直接去商场买大众化衣服吧。
主成分回归
8,主成分回归。主成分回归是一种合成的方法,相当于主成分分析与线性回归的合成。主要用于解决自变量之间存在高度相关的情况。这在现实中不算少见。比如你要分析的自变量中同时有血压值和血糖值,这两个指标可能有一定的相关性,如果同时放入模型,会影响模型的稳定,有时也会造成严重后果,比如结果跟实际严重不符。当然解决方法很多,最简单的就是剔除掉其中一个,但如果你实在舍不得,毕竟这是辛辛苦苦调查上来的,删了太可惜了。如果舍不得,那就可以考虑用主成分回归,相当于把这两个变量所包含的信息用一个变量来表示,这个变量我们称它叫主成分,所以就叫主成分回归。当然,用一个变量代替两个变量,肯定不可能完全包含他们的信息,能包含 80% 或 90% 就不错了。但有时候我们必须做出抉择,你是要 100% 的信息,但是变量非常多的模型?还是要 90% 的信息,但是只有 1 个或 2 个变量的模型?打个比方,你要诊断感冒,是不是必须把所有跟感冒有关的症状以及检查结果都做完?还是简单根据几个症状就大致判断呢?我想根据几个症状大致能能确定 90% 是感冒了。不用非得 100% 的信息不是吗?模型也是一样,模型是用于实际的,不是空中楼阁。既然要用于实际,那就要做到简单。对于一种疾病,如果 30 个指标能够 100% 确诊,而 3 个指标可以诊断 80%,我想大家会选择 3 个指标的模型。这就是主成分回归存在的基础,用几个简单的变量把多个指标的信息综合一下,这样几个简单的主成分可能就包含了原来很多自变量的大部分信息。这就是主成分回归的原理。
岭回归
9,岭回归。岭回归的名称由来我也没有查过,可能是因为它的图形有点像岭。不要纠结于名称。岭回归也是用于处理自变量之间高度相关的情形。只是跟主成分回归的具体估计方法不同。线性回归的计算用的是最小二乘估计法,当自变量之间高度相关时,最小二乘回归估计的参数估计值会不稳定,这时如果在公式里加点东西,让它变得稳定,那就解决了这一问题了。岭回归就是这个思想,把最小二乘估计里加个 k,改变它的估计值,使估计结果变稳定。至于 k 应该多大呢?可以根据岭迹图来判断,估计这就是岭回归名称的由来。你可以选非常多的 k 值,可以做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定 k 值了,然后整个参数估计不稳定的问题就解决了。
偏最小二乘回归
10,偏最小二乘回归。偏最小二乘回归也可以用于解决自变量之间高度相关的问题。但比主成分回归和岭回归更好的一个优点是,偏最小二乘回归可以用于例数很少的情形,甚至例数比自变量个数还少的情形。听起来有点不可思议,不是说例数最好是自变量个数的 10 倍以上吗?怎么可能例数比自变量还少,这还怎么计算?可惜的是,偏最小二乘回归真的就有这么令人发指的优点。所以,如果你的自变量之间高度相关、例数又特别少、而自变量又很多(这么多无奈的毛病),那就现在不用发愁了,用偏最小二乘回归就可以了。它的原理其实跟主成分回归有点像,也是提取自变量的部分信息,损失一定的精度,但保证模型更符合实际。因此这种方法不是直接用因变量和自变量分析,而是用反映因变量和自变量部分信息的新的综合变量来分析,所以它不需要例数一定比自变量多。偏最小二乘回归还有一个很大的优点,那就是可以用于多个因变量的情形,普通的线性回归都是只有一个因变量,而偏最小二乘回归可用于多个因变量和多个自变量之间的分析。因为它的原理就是同时提取多个因变量和多个自变量的信息重新组成新的变量重新分析,所以多个因变量对它来说无所谓。