基于SAS软件的Logistic回归分析(单因素 多因素 逐步)

数据集准备

使用R语言婚外情数据集作为分析案例,导出为 Affairs.csv,供SAS备用

R语言代码

install.packages("AER")
data(Affairs, package = "AER")
write.csv(Affairs, "Affairs.csv")

变量描述

  • Affairs 数据集中共 601 个样本,即 601行,共 9 个变量,即 9 列
  • affairs:出轨次数
  • gender:性别
  • age:年龄
  • yearsmarried:结婚年限
  • children:有无小孩
  • religiousness:宗教信仰程度
  • education:教育程度(20为满分)
  • occupation:职业种类
  • rating:婚姻满意度(5为满分)

明确分析意向

假设我们想探索发生婚外情的影响因素,因此确定变量 affairs 作为因变量(y),其余变量作为自变量(x1, x2, ··· x8

SAS分析代码

创建数据集

data affairs;
    input affairs gender$ age yearsmarried children$ religiousness education 
        occupation rating;
    datalines;
0 male 37 10 no 3 18 7 4
0 female 27 4 no 4 14 6 4
0 female 32 15 yes 1 12 1 4

/* ……(省略中间数据) */

2 male 32 10 yes 2 17 6 5
2 male 22 7 yes 3 18 6 2
1 female 32 15 yes 3 14 1 5
;
run;

我们对某些变量进行转化。

  • affairs 变量:在这里由于我们要做二分类 logistic 回归,而目前因变量 affairs 为定量变量,因此需要将因变量 affairs 转化为分类变量。于是,我们认为只要 affairs >=1,即出轨次数大于等于 1 次,我们则认为发生出轨,赋值为1,affairs = 0,即出轨次数为 0 ,则认为未发生出轨,赋值为0
  • gender 变量:数据集内 gender 为 “male” 和 “female” ,我们要将字符转化为数字形式, “male” 赋值为 1 ,“female”赋值为 0
  • children 变量:同上, “yes” 赋值为 1 , “no” 赋值为 0
  • age 变量:为了练习含有哑变量的SAS logistic回归分析,需要将年龄转化为无序分类变量。将 age 变量分为 [0,20) ,[20,35) ,[35,50) ,>50 四段,分别赋值为 1,2,3,4。
data affairs;
    set affairs;

    if affairs >=1 then
        affairs=1;
    else
        affairs=0;

    if gender="male" then
        newgender=1;
    else
        newgender=0;

    if children="yes" then
        newchildren=1;
    else
        newchildren=0;

    if age >=0 and age < 20 then
        newage=1;
    else if age >=20 and age < 35 then
        newage=2;
    else if age >=35 and age < 50 then
        newage=3;
    else if age >=50 then
        newage=4;
run;

单因素 logistic 回归分析

proc logistic data=affairs desc;
    model affairs=newgender;

proc logistic data=affairs desc;
    model affairs=newage;

proc logistic data=affairs desc;
    model affairs=yearsmarried;

proc logistic data=affairs desc;
    model affairs=newchildren;

proc logistic data=affairs desc;
    model affairs=religiousness;

proc logistic data=affairs desc;
    model affairs=education;

proc logistic data=affairs desc;
    model affairs=occupation;

proc logistic data=affairs desc;
    model affairs=rating;
run;

分析结果:

参数 自由度 估计 标准误差 Wald卡方 Pr > 卡方
newgender 1 0.2356 0.1888 1.5573 0.2121
newage 1 0.0297 0.1474 0.0405 0.8405
yearsmarried 1 0.0588 0.0172 11.6394 0.0006
newchildren 1 0.7593 0.2353 10.4130 0.0013
religiousness 1 -0.2598 0.0821 10.0144 0.0016
education 1 0.0186 0.0394 0.2235 0.6364
occupation 1 0.0487 0.0528 0.8502 0.3565
rating 1 -0.5082 0.0847 36.0125 <.0001

结果解读:

可以看到单因素 logistic 回归分析有统计学意义的变量有:

  • yearsmarried(结婚年限)
  • newchildren(有无小孩)
  • religiousness(宗教信仰程度)
  • rating(婚姻满意度)

无统计学意义的变量有:

  • newgender(性别)
  • newage(年龄)
  • education(教育程度)
  • occupation(职业种类)

多因素 logstic 回归分析

\color{red}{(在此由于想要练习含有哑变量的 logistic 回归分析,我们假设 newage 这个变量有统计学意义纳入到 logistic 回归中)}

全模型(全变量纳入方程)

proc logistic data=affairs desc;
    class newage (param=reference ref=first);
    model affairs=newage yearsmarried newchildren religiousness rating;
run;
/* 此处ref也可以制定为last,即以newage1、newage2、newage3与newage4作对比 */
/* 此处ref也可以指定具体变量赋值ref="1"等价于ref=first,ref="3"等价于ref=last,
   同样我们可以指定ref="2",即以newage1、newage3、newage4与newage2作对比*/

分析结果

参数 自由度 估计 标准误差 Wald卡方 Pr > 卡方
Intercept 1 2.7356 0.9945 7.5668 0.0059
newage2 1 -1.8557 0.8746 4.5020 0.0339
newage3 1 -2.5091 0.9333 7.2276 0.0072
newage4 1 -3.0666 1.0043 9.3231 0.0023
yearsmarried 1 0.0973 0.0309 9.9472 0.0016
newchildren 1 0.3167 0.2915 1.1810 0.2772
religiousness 1 -0.3398 0.0905 14.1100 0.0002
rating 1 -0.4709 0.0900 27.3495 <.0001
效应 点估计 95% Wald置信限lower 95% Wald置信限upper
newage 2 vs 1 0.156 0.028 0.868
newage 3 vs 1 0.081 0.013 0.507
newage 4 vs 1 0.047 0.007 0.333
yearsmarried 1.102 1.038 1.171
newchildren 1.373 0.775 2.430
religiousness 0.712 0.596 0.850
rating 0.624 0.523 0.745

结果解读

\color{red}{注意:多因素分析结果并不正确。为演示哑变量操作而将原本无意义的newage变量纳入模型中}
可以看到进行多因素logistic回归后除了newchildren其余变量均有统计学意义。
而newage2、newage3、newage4表示与newage1(SAS已省略)相比有统计学意义,具体效应值可以看点估计,即OR值和OR值置信区间。

变量选择

  • selection = 指定变量选择方法,如前进法(forward)、后退法 (backward)、逐步法 (stepwise)、最优子集法 (scores)等,默认为 none
  • slentry = 变量选择方法为 forward 或 stepwise 时,用来指定变量入选标准,默认值为 0.05
  • slstay = 变量选择方法为 backward 或 stepwise 时,用来指定变量剔除标准,默认值为 0.05

以逐步变量筛选方法 (stepwise)为例:

proc logistic data=affairs desc;
    class newage (param=reference ref=first);
    model affairs=newage yearsmarried newchildren religiousness rating/stepwise stb expb;
run;
/* stb 输出标准化回归系数,用于比较不同变量的作用大小 */
/* expb 该选项输出 OR值,无95%可信区间 */

分析结果

参数 自由度 估计 标准误差 Wald卡方 Pr > 卡方 标准化估计 Exp(Est)
Intercept 1 2.8850 0.9820 8.6303 0.0033 17.903
newage2 1 -1.8591 0.8705 4.5605 0.0327 -0.4922 0.156
newage3 1 -2.5553 0.9296 7.5557 0.0060 -0.6316 0.078
newage4 1 -3.1242 1.0005 9.7521 0.0018 -0.4443 0.044
yearsmarried 1 0.1128 0.0277 16.6176 <.0001 0.3464 1.119
religiousness 1 -0.3387 0.0904 14.0344 0.0002 -0.2180 0.713
rating 1 -0.4777 0.0898 28.2770 <.0001 -0.2906 0.620

结果解读

注事事项

  • 结果解释时要注意回归系数的正负号不要弄反。
    例如婚姻满意度与出轨次数是正比还是反比呢?回归系数是 -0.4777,说明是反比,那么如何确定关系没有弄反呢?

    • 一种方法是:我推荐在分析之前将自变量与因变量做相关性分析,观察自变量与因变量方向。
    • 另一种方法是:还可以看SAS分析结果中建模的概率为 affairs=1说明我们的分析预测 affairs=1 发生的情况。
  • 区分好回归系数,标准回归系数以及e(βi)的区别。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,270评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,489评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,630评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,906评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,928评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,718评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,442评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,345评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,802评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,984评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,117评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,810评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,462评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,011评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,139评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,377评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,060评论 2 355

推荐阅读更多精彩内容