第5章 多元线性回归

第5章 多元线性回归

5.1 二元线性回归

  • 一元线性回归会遗漏变量

  • Xi1中,i表示第i个个体,1表示是第一个解释变量

  • OLS估计量的最优化问题仍为残差平方和最小

  • 对数化后的系数表示:x1增加1%个单位,y增加0.233%(求偏导:系数可以看做是y对x1求偏导)

reg y x1 x2

含义:二元回归的命令

predict lny1

(option xb assumed;fitted values)

含义:①拟合值可以命名为lny1,这个是随便起的②xb就是βhat

predict e, residual

含义:计算残差,并将其记为e,residual表示计算残差(默认的命令是计算拟合值的,即fitted values)

list lny lny1 e

含义:罗列原始值lny,拟合值lny1以及残差的拟合值

Iine lny lny1 year,lp(solid dash)

含义:画图比较lny,lny1(纵轴),year是横轴,(solid dash)表示用实现和虚线作区分

5.2 多元线性回归模型

5.3 OLS估计量的推导

  • 对于多元回归模型,OLS估计量的最小化问题仍为使得残差平方和SSR最小

5.4 OLS的几何解释

  • 拟合值向量与残差向量正交,故被解释变量y可以分解为想和正交的拟合值yhat与残差e之和
图1.png
  • 拟合值yhat可视为被解释变量y向解释变量超平面X的投影。由于yhat=Xβhat,故拟合值向量yhat正好在超平面上,根据OLS的正交性,残差向量e与yhat正交。
图2.png

5.5 拟合优度

  • TSS(离差平方和)=ESS(回归平方和)+RSS(残差平方和)

  • 拟合优度R平方=ESS/TSS

  • 矫正拟合优度\overline{R}^2=1-[ESS/(n-k)]/[TSS/(n-1)]

    图3.png

备注1: ESS包含了n个离差,n个离差之和必为0(OLS估计中估计量求偏导为0,其实就是定义了离差之和为0),因此在这n个离差中真正可以自由取值的只有n-1个离差(只要前边n-1个已经取值了,最后一个就不再是随机变量,而是可以计算出来的),因此ESS的自由度是n-1

备注2: TSS包含n个残差e,n个e受到K个方程的约束,因此只有(n-k)个残差是自由的

备注3: 若引入新的变量(即K变大),K变大有两个相反方向作用的发挥①引入K使得模型的解释力上升,残差平方和ESS下降,从而矫正拟合优度(adjust R2)上升②K变大,n-k变下,[ESS/(n-k)]变大,从而矫正拟合优度(adjust R2)上升下降。因此考虑要不要加入新变量的时候,要考虑引入变量的解释力,是否可以抵消其自由度变大的损失,所以我们在考虑模型的时候不能只追求R2越大越好,还要注意模型是否简洁。

备注4: adjust R2的缺点:它有可能出现负值

备注5: R2以及adjust R2只反应拟合优度的好坏,除此并无太多意义

5.6 古典线性回归模型的假定

备注:古典线性回归模型:上世纪五六十年代,计量经济学刚刚开始发展的时候所提出来的一些计量的理论

假定5.1 线性假定

t图4.png
图5.png
图6.png
图7.png

备注:只要将回归方程中变量的高次项(平方项等)或函数(求对数)都作为变量来看待,则已然满足线性假定。

假定5.2 严格外生性

图8.png

严格外生性意味着,在给定数据矩阵X的情况下,扰动项的条件期望为0。因此,扰动项均值独立于所有解释变量的观测数据,而不仅仅是同一观测数据xi中的解释变量(就是说:[图片上传失败...(image-2854a-1607309152743)] 不仅仅要独立于解释变量Xi,还有独立于其他所有的解释变量X1、X2等,即[图片上传失败...(image-edec54-1607309152743)] 与所有个体的解释变量都不相关)。

严格外生的假定在大样本的情况下可以放松。

图9.png
图10.png

假定5.3 不存在严格的多重共线性

数据矩阵的各列向量为线性无关,即不存在某个解释变量为另一解释变量的倍数,或可以由其他解释变量线性表出的情形。换言之,X中不存在多余的变量。

图11.png

如果所有个体的教育年限都相同(就是不是列满秩的),则导致(s_i-\bar s)离差恒为0,(s_i-\bar s)的离差平方和恒为0,分母不存在,导致\hat\beta不存在了。

对于多元回归,如果X列满秩,则X’X为正定矩阵,故(X’X)-1存在,故可计算\hat\beta=(X’X)-1X’y;反过来,X不是列满秩,则无法识别\hat\beta

数据矩阵X满列秩是对数据的最低要求,现实数据不容易出现严格多重共线性,stata数据也会自动去掉某个数据的。

假定5.4 球形扰动项假定-同方差

图12.png

含义:不同个体的扰动项之间不存在“自相关”或“序列相关”

5.7 OLS的小样本性质

在古典线性回归模型的假定(线性假定、严格外生假定、不存在严格多重共线性),OLS估计量具有以下良好性质:

1. 线性性(linear estimator)

从OLS估计量的表达式\hat\beta=(X’X)-1X’y可以看出,βhat可视为y的线性组合(要把[(X’X)-1X’]看做系数矩阵),故为线性估计量

2. 无偏性

E(βhat|X)=β,即\hat\betaβhat不会系统地高估或者低估β

E(βhat)=β,可以使用迭代期望公式

3. 估计量\hat\beta的协方差矩阵

备注:球形扰动项假定是估计\hat\beta协方差矩阵的关键

图13.png

4.高斯-马尔科夫定理

含义:最小二乘法是最佳线性无偏估计(best linear unbiased estimator)
备注:若存在异方差,即主对角线上的元素不一样,那么OLS估计量的方差就不一定是最小的,高斯-马尔科夫定理不成立。因此,球形扰动项假定是高斯马尔科夫定理的关键
备注:对于非线性的、有偏的估计量,OLS估计量的方差也不一定是最小的

5. 对扰动项方差的无偏估计

  • 第一步:用观测值s^2来估计\sigma^2
    图14.png

解释:方差的估计公式是先平均,求差,然后是平方,但是这里只有e_i^2,因为在大样本情况下,\overline{e_i}是0,因此这里直接省略了
解释:残差的样本均值为0,离差之和为0,因此虽然有n个残差,但是必须要满足K个正规方程组,所以可以真正自由取值的只有n-K个。经过n-K的矫正,才是无偏估计,即E(s2)= \sigma^2.如果样本容量n很大,当n趋于无穷时,此时[(n-K)/n]趋近于1,此时是否进行小样本矫正并无多大区别。
备注:s衡量的是扰动项的标准差,所以把它叫做回顾方程的标准误,衡量回归方程扰动项的波动幅度。

  • 第二步,可以用s^2(X'X)^{-1}来估计\hat\beta
图15.png

备注:为什么标准差又叫做标准误呢?解释如下:


图16.png

备注:后边的统计推断也有赖于标准误,标准误可以知道店估计的准确程度。

5.8 单个系数的t检验

小样本理论:无论样本容量多少,小样本理论都成立,不需要让样本容量n趋于无穷

大样本理论:要求样本容量n趋于无穷,小样本理论虽然使用于各种样本容量,但不易推导统计量的分布,因此需要对随机变量的概率做很强的假定。

假定5.5 在给定X的情况下,\sigma|X的条件分布为正态,即\sigma|X~N(0,\sigma^2I_n)
    考虑最简单的假设检验,即对单个回归系数\beta_k进行检验,需要检验的原假设(也称为“零假设”)为0,即
H_0:\beta_k=c
    备注:这个c通常为0,来检验变量x_{ik}是否显著的不等于0,若等于0,那么\beta_k就没有存在的意义了
    所以假设检验也是一种概率意义上的反证法。首先假设原假设成立,然后看在原假设成立的前提下,是否导致不太可能发生的“小概率事件”再一次抽样的样本中出现。如果小概率事件竟然在一次抽样试验中被观测到,那么说明原假设不可信,应拒绝原假设,接受替代假设(也称“备择假设”),如下:
H_1: \beta_k\neq c
9:43fen

5.9 OLS的几何解释

5.10 OLS的几何解释

5.11 OLS的几何解释

5.12 OLS的几何解释

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容

  • 接着上一期继续,间隔时间稍微有点久了~ 模型评估 从回归模型返回的结果,我们能够得到统计性数据(这里用到了stat...
    小狸投资阅读 2,093评论 1 0
  • 一、遗漏变量偏差 遗漏变量偏差是指OLS估计量中存在的偏差,它是在回归变量与遗漏变量相关时产生的。 遗漏变...
    流焱之舞阅读 3,470评论 0 0
  • 总结 线性回归是有监督学习里最常见也是最简单的一种形式,可以分为一元线性回归和多元线性回归,适用情况为是连续型数据...
    忘词x阅读 2,914评论 0 0
  • 1.多元线性回归模型 一般的多元线性回归模型可以写为: 全部写出来有如下: 其中矩阵X为: 2.OLS估计量的推导...
    凡有言说阅读 3,133评论 0 1
  • 4.1 一元线性回归模型简介 1.模型简介 2.stata实操 list s lnw in 1/10 含义:列出前...
    mhhhpl阅读 2,144评论 0 0