基于SAS软件的Logistic回归分析（单因素多因素逐步）

数据集准备

使用R语言婚外情数据集作为分析案例，导出为 Affairs.csv，供SAS备用

R语言代码

install.packages("AER")
data(Affairs, package = "AER")
write.csv(Affairs, "Affairs.csv")

变量描述

Affairs 数据集中共 601 个样本，即 601行，共 9 个变量，即 9 列
affairs：出轨次数
gender：性别
age：年龄
yearsmarried：结婚年限
children：有无小孩
religiousness：宗教信仰程度
education：教育程度（20为满分）
occupation：职业种类
rating：婚姻满意度（5为满分）

明确分析意向

假设我们想探索发生婚外情的影响因素，因此确定变量 affairs 作为因变量（y），其余变量作为自变量（x₁, x₂, ··· x₈）

SAS分析代码

创建数据集

data affairs;
    input affairs gender$ age yearsmarried children$ religiousness education 
        occupation rating;
    datalines;
0 male 37 10 no 3 18 7 4
0 female 27 4 no 4 14 6 4
0 female 32 15 yes 1 12 1 4

/* ……（省略中间数据） */

2 male 32 10 yes 2 17 6 5
2 male 22 7 yes 3 18 6 2
1 female 32 15 yes 3 14 1 5
;
run;

我们对某些变量进行转化。

affairs 变量：在这里由于我们要做二分类 logistic 回归，而目前因变量 affairs 为定量变量，因此需要将因变量 affairs 转化为分类变量。于是，我们认为只要 affairs >=1，即出轨次数大于等于 1 次，我们则认为发生出轨，赋值为1，affairs = 0，即出轨次数为 0 ，则认为未发生出轨，赋值为0
gender 变量：数据集内 gender 为 “male” 和 “female” ，我们要将字符转化为数字形式， “male” 赋值为 1 ，“female”赋值为 0
children 变量：同上， “yes” 赋值为 1 ， “no” 赋值为 0
age 变量：为了练习含有哑变量的SAS logistic回归分析，需要将年龄转化为无序分类变量。将 age 变量分为 [0,20) ，[20,35) ，[35,50) ，>50 四段，分别赋值为 1，2，3，4。

data affairs;
    set affairs;

    if affairs >=1 then
        affairs=1;
    else
        affairs=0;

    if gender="male" then
        newgender=1;
    else
        newgender=0;

    if children="yes" then
        newchildren=1;
    else
        newchildren=0;

    if age >=0 and age < 20 then
        newage=1;
    else if age >=20 and age < 35 then
        newage=2;
    else if age >=35 and age < 50 then
        newage=3;
    else if age >=50 then
        newage=4;
run;

单因素 logistic 回归分析

proc logistic data=affairs desc;
    model affairs=newgender;

proc logistic data=affairs desc;
    model affairs=newage;

proc logistic data=affairs desc;
    model affairs=yearsmarried;

proc logistic data=affairs desc;
    model affairs=newchildren;

proc logistic data=affairs desc;
    model affairs=religiousness;

proc logistic data=affairs desc;
    model affairs=education;

proc logistic data=affairs desc;
    model affairs=occupation;

proc logistic data=affairs desc;
    model affairs=rating;
run;

分析结果：

参数	自由度	估计	标准误差	Wald卡方	Pr > 卡方
newgender	1	0.2356	0.1888	1.5573	0.2121
newage	1	0.0297	0.1474	0.0405	0.8405
yearsmarried	1	0.0588	0.0172	11.6394	0.0006
newchildren	1	0.7593	0.2353	10.4130	0.0013
religiousness	1	-0.2598	0.0821	10.0144	0.0016
education	1	0.0186	0.0394	0.2235	0.6364
occupation	1	0.0487	0.0528	0.8502	0.3565
rating	1	-0.5082	0.0847	36.0125	<.0001

结果解读：

可以看到单因素 logistic 回归分析有统计学意义的变量有：

yearsmarried（结婚年限）
newchildren（有无小孩）
religiousness（宗教信仰程度）
rating（婚姻满意度）

无统计学意义的变量有：

newgender（性别）
newage（年龄）
education（教育程度）
occupation（职业种类）

多因素 logstic 回归分析

$\color{red}{（在此由于想要练习含有哑变量的 logistic 回归分析，我们假设 newage 这个变量有统计学意义纳入到 logistic 回归中）}$

全模型（全变量纳入方程）

proc logistic data=affairs desc;
    class newage (param=reference ref=first);
    model affairs=newage yearsmarried newchildren religiousness rating;
run;
/* 此处ref也可以制定为last，即以newage1、newage2、newage3与newage4作对比 */
/* 此处ref也可以指定具体变量赋值ref="1"等价于ref=first，ref="3"等价于ref=last，
   同样我们可以指定ref="2"，即以newage1、newage3、newage4与newage2作对比*/

分析结果

参数	自由度	估计	标准误差	Wald卡方	Pr > 卡方
Intercept	1	2.7356	0.9945	7.5668	0.0059
newage2	1	-1.8557	0.8746	4.5020	0.0339
newage3	1	-2.5091	0.9333	7.2276	0.0072
newage4	1	-3.0666	1.0043	9.3231	0.0023
yearsmarried	1	0.0973	0.0309	9.9472	0.0016
newchildren	1	0.3167	0.2915	1.1810	0.2772
religiousness	1	-0.3398	0.0905	14.1100	0.0002
rating	1	-0.4709	0.0900	27.3495	<.0001

效应	点估计	95% Wald置信限lower	95% Wald置信限upper
newage 2 vs 1	0.156	0.028	0.868
newage 3 vs 1	0.081	0.013	0.507
newage 4 vs 1	0.047	0.007	0.333
yearsmarried	1.102	1.038	1.171
newchildren	1.373	0.775	2.430
religiousness	0.712	0.596	0.850
rating	0.624	0.523	0.745

结果解读

$\color{red}{注意：多因素分析结果并不正确。为演示哑变量操作而将原本无意义的newage变量纳入模型中}$
可以看到进行多因素logistic回归后除了newchildren其余变量均有统计学意义。
而newage2、newage3、newage4表示与newage1（SAS已省略）相比有统计学意义，具体效应值可以看点估计，即OR值和OR值置信区间。

变量选择

selection = 指定变量选择方法,如前进法（forward)、后退法（backward)、逐步法 (stepwise)、最优子集法 (scores）等,默认为 none
slentry = 变量选择方法为 forward 或 stepwise 时,用来指定变量入选标准,默认值为 0.05
slstay = 变量选择方法为 backward 或 stepwise 时,用来指定变量剔除标准,默认值为 0.05

以逐步变量筛选方法 (stepwise)为例：

proc logistic data=affairs desc;
    class newage (param=reference ref=first);
    model affairs=newage yearsmarried newchildren religiousness rating/stepwise stb expb;
run;
/* stb 输出标准化回归系数，用于比较不同变量的作用大小 */
/* expb 该选项输出 OR值，无95％可信区间 */

分析结果

参数	自由度	估计	标准误差	Wald卡方	Pr > 卡方	标准化估计	Exp(Est)
Intercept	1	2.8850	0.9820	8.6303	0.0033	17.903
newage2	1	-1.8591	0.8705	4.5605	0.0327	-0.4922	0.156
newage3	1	-2.5553	0.9296	7.5557	0.0060	-0.6316	0.078
newage4	1	-3.1242	1.0005	9.7521	0.0018	-0.4443	0.044
yearsmarried	1	0.1128	0.0277	16.6176	<.0001	0.3464	1.119
religiousness	1	-0.3387	0.0904	14.0344	0.0002	-0.2180	0.713
rating	1	-0.4777	0.0898	28.2770	<.0001	-0.2906	0.620

结果解读

略

注事事项

结果解释时要注意回归系数的正负号不要弄反。
例如婚姻满意度与出轨次数是正比还是反比呢？回归系数是 -0.4777，说明是反比，那么如何确定关系没有弄反呢？
- 一种方法是：我推荐在分析之前将自变量与因变量做相关性分析，观察自变量与因变量方向。
- 另一种方法是：还可以看SAS分析结果中建模的概率为 affairs=1说明我们的分析预测 affairs=1 发生的情况。
区分好回归系数，标准回归系数以及e^(βi)的区别。

最后编辑于：2023.11.06 12:47:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,270评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,489评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,630评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,906评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,928评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,718评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,442评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,345评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,802评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,984评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,117评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,810评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,462评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,011评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,139评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,377评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,060评论 2赞 355

基于SAS软件的Logistic回归分析（单因素 多因素 逐步）

数据集准备

R语言代码

变量描述

明确分析意向

SAS分析代码

创建数据集

单因素 logistic 回归分析

分析结果：

结果解读：

多因素 logstic 回归分析

分析结果

结果解读

变量选择

分析结果

结果解读

注事事项

推荐阅读更多精彩内容

基于SAS软件的Logistic回归分析（单因素多因素逐步）