回归分析

对于自己的数据,选择正确的回归方法非常重要,今天我们就学习一下主流的回归分析。

今天主要讲解主流回归的区分方式,文末有思维逻辑图可以参照。

在讲之前,跟大家一起回顾一下,回归分析和相关性分析的区别。

1.回归分析

大家在接触的时候都知道我们是为了研究某几个自变量,对一个因变量造成的影响情况。

这一些原因是否真的会导致这个结果?还有,这些原因出现时,会造成结果出现的机率是多少。

比如说我们吃的越多长得越胖,那么进食量就是原因,体重就是结果。

那么我们为了研究进食量对体重的影响情况,我们就会选择回归分析。

只要是涉及到谁对谁的影响情况,我们通通选择的都是回归分析。

2.相关性分析

在统计学里面相关性分析是指的是两个变量之间互为关联,方向一致或者是方向不一致,在统计学里面被称为相关性。

相关性分析是一定没有前因后果的,是不存在原因发生在前面,从而导致的后面的后果的这种情况。

我们可以明确的确定其中一个变量是起因而另外一个变量是结果的时候,选择回归分析。

我们在生活里面可以讲解谁和谁之间有相关关系,但是在统计学里面,我们一定要严谨的描述成进食量对体重有影响关系,因为在统计学里面影响关系,也就是我们所说的这个回归分析和相关性分析是不同的。

在统计分析的时候,我们到底是选择这个回归分析呢,还是选择相关性分析?

比如吸烟和肺癌,我们想知道的是吸烟会不会导致肺癌发生,也就是说吸烟会不会影响肺癌的发生,这时候我们选择回归分析。

总之,相关性分析就是关联关系不存在原因和结果,你好我好你差我差是一个状态;而回归分析有明确的前因后果。

回归分析的种类:

回归分析有很多,我们常用到的,按因变量的类型分为三类:

1.线性回归分析

2.Logistic回归分析

3.生存回归分析

下面一一说明,后面有附图:

一、线性回归

因变量是连续数值型变量,不论自变量是哪种,都选择线性回归。

比如说像体重,可以取到40公斤,41公斤,42公斤,甚至还可以到44.14 ,41.2等等,像这种在坐标轴上任意位置可以取到数值,就被称作为连续数值型的变量。

我们的体重、年龄、生化指标等等,这样一些数值都是被称作为连续数值型的变量,就应该选择线性回归分析。

敲黑板:

如果自变量里面有无序分类变量的时候,在做线性回归的时候,一定要做正确的虚拟化处理,这个是关键。

线性回归分三类:

1.一元线性回归

因变量只有一个,自变量有一个,就是用一元线性回归。

2.多元线性回归

因变量只有一个,自变量有多个,就用多元线性回归。

注意多个自变量之间的共线性问题:

什么是共线性?

共线性,即同线性或同线型。统计学中,共线性即多重共线性。

多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

就是某一个矩阵里面有两列变量重叠了,就会导致回归分析的结果出现很大的错误,spss软件里面普通的这个OLS(最小二乘估计)是失效的。

比如,自变量里面有一个alt和ast,如果自变量还有一个是alt和ast的比值,三个自变量里面有一个自变量完全是通过另外两个自变量计算出来的,这就存在极强的共线性。

还有一种共线性的情况,就像这个alt和ast是反映同一个内容的,那么这个alt和ast本身之间就可就可能存在一个比较强的共线性。

当这个共线性达到一定的严重程度的时候,那么我们在spss里面,用这个OLS算出的结果一定错误。有可能p值无穷大……等等,就是那种完全没法解释的情况。

用什么方法合适呢?有三种方法:

①岭回归,spss可以实现。

②主成分回归,spss可以实现。

③偏最小二乘法,可以用PLS实现。

3.路径分析

因变量有多个,就要用路径分析,用软件AMOS结构方程软件做分析。

例如:一个或者几个因素是否会影响患者的焦虑情况,这个抑郁情况,疼痛情况等。

原因有几个不管,只要造成的结果有多个,Spss软件是处理不了的,因为spss软件只允许选入一个因变量,所以因变量有多个的时候,需要改用MOD结构方程软件进行路径分析。

二、Logistic回归分析

1.二元Logistic回归分析

因变量是二分类变量,不管自变量是何类型,都属于此类回归分析。

例如,复发vs未复发,阴性vs阳性,生存vs死亡……

2.多元Logistic回归分析

因变量是无序多分类变量,什么是无序多分类呢?

简单来说,就是因变量大于等于三个,而且相互之间是没有顺序的。

比如,血型,职业等。

一般来说不要有五类以上,如果变量很多,做回归分析的时候,算出来的表格会有很多张,而且很繁琐。

版面很珍贵的期刊没有那么多版面,一般因变量都选择三类。

3.有序Logistic回归分析

因(结局)变量是有序的,无论自变量是连续还是分类,就要选择有序logistic回归。

例如:疾病的严重程度,轻中重;及格,良好,优秀……

敲黑板:

有序因变量有一个平行线检验平行性,看起来有序的变量没有通过检验的时候,不能选择有序logistic回归,就得选择多元logistic回归。

总结:首先判断因变量是有序的,选择有序logistic回归,如果后面的平行线检验没有通过,就改用无序logistic回归,也就是多元logistic回归。

三、COX生存回归分析

是二分类logistic回归的一个演化。

因为生存分析就是研究存活死亡,或者复发未复发,在二元logistic回归的基础上,纳入了一个时间数据。

比如,如果因变量是存活和死亡两类,那么应该选择二元logistic回归,但是数据里面除了有患者存活和死亡的状态之外,还记录了对于这个死亡患者的这个存活时间,这时就选择COX生存回归分析。

以上就是我对回归分析的框架学习,后续再深入研究每个知识点。

特别要注意的一点是,回归分析前要做单因素分析筛查:

在进行回归分析的时候,为了减少自变量之间的混杂干扰,不建议把多个自变量同时纳入到回归分析里面。

在纳入之前,首先要对自变量进行一个这个单因素的筛查,没有关系的就直接舍弃。

线性回归的单因素筛查方法和logistic回归的筛查方法,都是不一样的。

后期再研究。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,858评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,372评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,282评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,842评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,857评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,679评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,406评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,311评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,767评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,945评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,090评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,785评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,420评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,988评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,101评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,298评论 3 372
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,033评论 2 355

推荐阅读更多精彩内容

  • 回归,最初是遗传学中的一个名词,是由生物学家兼统计学家高尔顿首先提出来的。他在研究人类的身高时,发现高个子回归于人...
    黄成甲阅读 46,047评论 0 61
  • 回归分析 - 刺猬的温驯 - 博客园 http://www.cnblogs.com/chenying99/p/4...
    葡萄喃喃呓语阅读 1,646评论 1 7
  • 回归分析 回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计...
    冬_84fe阅读 886评论 0 4
  • 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时...
    wyrover阅读 12,289评论 0 13
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    迷月闪星情阅读 10,567评论 0 11