《Discovering Statistics Using R》笔记12-简单线性回归

笔记说明

读《Discovering Statistics Using R》第七章 Regression中的7.2-7.5节 做的笔记。主要包括简单线性回归基本概念、用R^2评估拟合优度,模型整体的F检验,回归系数的t检验。

简单线性回归

回归分析是由一个自变量或多个自变量预测一个定量因变量变量取值的分析方法。简单线性回归就是只有一个自变量的线性回归:
Y_i=b_0 +b_1X_i +ε_i
确定了截距b_0和回归系数b_1就确定了简单线性回归。
b_0 +b_1X_i为简单线性回归模型的估计值\hat{y}ε_i为观测值与估计值之差,称为残差。

最小二乘法

可以通过最小二乘法来求解回归方程中的截距和回归系数。
其基本思想为:在给定样本数据后,求解使得回归方程的残差平方和取得最小值的截距和回归系数。
书中未解释最小二乘法具体的求解过程。此处略过。

评估拟合优度

可以用离差平方和来评估一个模型对数据的拟合优度:
deviation = \sum(observed - model)^2
SS_T = \sum(Y-\overline{Y})^2 (total sum of squares)为Y的离均差平方和。可以理解为用样本均值作为模型,它的离差平方和。
SS_R = \sum(Y-\hat{Y})^2(resudual sum of squares)为回归后残差平方和。它代表线性回归模型的离差平方和。
SS_M = \sum(\hat{Y}-\overline{Y})^2(model sum of squares)称为回归平方和
如果SS_M相比SS_R很大,这说明回归模型比使用样本均值作为预测模型有较大改善。数学上这三个平方和间有:
SS_T=SS_M + SS_R
R^2 = \frac{SS_M}{SS_T}
R^2称为决定系数,表示因变量的方差中回归模型可以解释的比例。它和介绍相关系数时提到的R^2是一样的。

用离差平方和评估模型的另一个方法是F检验。在第二章时提到过,检验统计量 如F经常是系统性方差除以随机性方差,或者说模型与误差之间的比较。在线性回归的F检验这里也是这样:F基于模型可解释的部分(SS_M)和模型和观测值之间的差异(SS_R)。由于离差平方和的计算和样本量有关系,我们使用平均的离差平方和,称为均方(MS mean squaes),它由离差平方和除以对应的自由度得到。
SS_M的自由度为模型中自变量的个数,对应均方为回归均方MS_M
SS_R的自由度为样本量-模型中待估计参数个数(线性回归中即回归系数和截距),对应均方为残差均方MS_R
F=\frac{MS_M}{MS_R}
利用F统计量可以对模型整体进行检验。根据分子自由度和分母自由度查F分布表可以找到对应的F临界值,若F>临界值,则两变量线性关系有统计学意义。

回归系数检验

回归系数表示自变量改变一个单位时因变量的平均变化量。回归系数为0意味着:因变量的期望值不随自变量变化而变化;线性模型斜率为0。
如果自变量对因变量有(线性)预测作用,则其回归系数不等于0.
对回归系数的假设检验采用t检验。
t=\frac{b_{observed}-b_{expected}}{SE_b}=\frac{b_{observed}}{SE_b}
检验统计量t的自由度为N-p-1。N为样本量,p为自变量个数。
则在简单线性回归中此处自由度为N-2

示例数据

研究问题为用广告投入费用(adverts)来预测唱片销量(salesd)。数据在这里:Album Sales 1.dat

library(rio)
album1 <- import("data/Album Sales 1.dat") 
str(album1)
## 'data.frame':    200 obs. of  2 variables:
##  $ adverts: num  10.3 985.7 1445.6 1188.2 574.5 ...
##  $ sales  : int  330 120 360 270 220 170 70 210 200 300 ...

先做散点图看一下两个变量的情况,在散点图的基础上多加了geom_smooth(method="lm"),画出拟合的线性模型。

library(ggplot2)
scatter <- ggplot(album1, aes(adverts, sales)) + geom_point()
scatter + geom_smooth(method = "lm")


使用lm()函数进行回归分析,lm是linear model的简写。使用方法:
newModel <- lm(outcom ~ predictor(s), data = dataFrame, na.action = an action)

  • newModel 是生成的包含回归分析信息的对象。可以对其使用summary()来查看回归分析的统计量等信息。
  • outcom ~ predictor(s) 此处指定回归分析的自变量和因变量。~表示"predicted from"
  • na.action指定对缺失数据的处理。主要有两种处理方式:1.na.action=na.fail 默认选项,如果有缺失数据则回归分析不会进行。
    2.na.action=na.omit 或 na.exclude 如果发现缺失则有缺失数据的样本在分析时被剔除。
albumSales.1 <- lm(sales ~ adverts, data = album1)
summary(albumSales.1)
## Call:
## lm(formula = sales ~ adverts, data = album1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -152.949  -43.796   -0.393   37.040  211.866 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.341e+02  7.537e+00  17.799   <2e-16 ***
## adverts     9.612e-02  9.632e-03   9.979   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 65.99 on 198 degrees of freedom
## Multiple R-squared:  0.3346, Adjusted R-squared:  0.3313 
## F-statistic: 99.59 on 1 and 198 DF,  p-value: < 2.2e-16

summary(albumSales.1)结果的倒数第二行提供了R^2和矫正R^2的值。广告支出可以“解释”唱片销量约33.5%的变异。
结果最后一行是方差分析的简要结果,包括F值、对应的自由度、P值。2.2e-16即2.2×10^{-16} 结果显示广告支出和唱片销量之间的线性回归关系有统计学意义。
Coefficients部分包括了回归模型的参数(回归系数和截距)及参数的假设检验结果。Estimatel列即为参数估计值。Std.Error为参数的标准误。回归系数约为0.096,截距约为134.1.
截距的意义是自变量为0时因变量的期望值,即广告支出为0时,唱片销量的期望为134.1(单位为千张)。
回归系数的意义是自变量变化一个单位时因变量的改变量。
Pr(>|t|)列对应t检验的P值。示例数据结果P值均<0.001,则广告支出对预测唱片销量的贡献有统计学意义。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 197,597评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,053评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 144,583评论 0 326
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,888评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,772评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,536评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,922评论 3 388
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,554评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,838评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,861评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,677评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,483评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,928评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,104评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,403评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,945评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,156评论 2 339