1. 内生变量的定义与后果
一个典型的线性回归模型:
y为被解释变量,x1为自变量,或者解释变量,也即“因变量”。大写的 X 为外生控制项向量( 也即一组假定为外生的其他控制变量,例如年龄、性别等等) ,ε则为误差项。如果ε与x1不相关,那么我们可以利用OLS 模型对方程进行无偏估计。然而,如果一个重要变量x2被模型遗漏了,且x1和x2也相关,那么对β1的OLS 估计值就必然是有偏的。此时,x1被称作“内生”的解释变量,这就是 “内生性”问题。
如果存在内生性,则称解释变量为 “内生变量”(endogenous variable);反之,则称为 “外生变量”(exogenous variable)。内生性的严重后果是使得 OLS估计量不一致(inconsistent),即无论样本容量多大,OLS 估计量也不会收敛至真实的参数值 。
在计量经济学中,把所有与扰动项相关的解释变量都称为“内生变量”。这与一般经济学理论中的定义有所不同。1.与误差项相关的变量称为内生变量(endogenous variable)。2.与误差项不相关的变量称为外生变量(exogenous variable)。
2. 内生性的来源
-
互为因果关系。
即X影响Y,但Y也同时影响X。
例如:创业与幸福的关系:到底是创业者更幸福还是幸福的人更愿意去创业
-
遗漏变量。
若在模型设定中,某些不可观测的变量或重要变量被忽略,但它同时影响X与Y,也会导致内生性问题,即产生了因忽略变量导致的内生性问题。
例如:“吃冰激凌”会导致“溺亡”?
x是“吃冰激凌”人数,y是“溺亡”人数。如果把二者进行回归会发现高度的显著性。显然,“吃冰激凌”是不会导致“溺亡”。这种估计的偏误主要是模型中遗漏了一个重要的因素,那就是温度。温度升高时,游泳的人数会变多且溺亡人数上升,同时吃冰激凌的人也增多。也就是说温度是共同影响“吃冰激凌人数”与“溺亡人数”的重要变量,如果模型在中遗漏温度变量,则导致结果出现严重的偏误。
-
测量误差。
解释变量X的测量误差与X相关,该测量误差又被合并到误差项中。因此,X具有内生性问题。
3. 内生性处理与工具变量的思想
-
工具变量的思想
工具变量的思想其实很简单。虽然内生变量是 “坏” 的变量(与扰动项相关),但仍可能有 “好” 的部分(与扰动项不相关的部分),正如坏人通常也有好的一面。如果能将内生变量分解为内生部分与外生部分之和,则可能使用其外生部分得到一致估计。
-
内生性处理
而要实现这种分离,通常需要借助另一变量,即 “工具变量”(Instrumental Variable,简记 IV),因为它起着工具性的作用。
3.工具变量必须满足两个条件
-
外生性
工具变量要与扰动项不相关,也被称为“排他性约束或工具变量的效度( validity)。工具变量要能够帮助内生变量分离出一个外生部分,则工具变量自身必须是 “干净”的,即满足 “外生性”( 与扰动项不相关)。这里的外生性意味着工具变量影响被解释变量的唯一渠道是通过与其相关的内生解释变量,它排除了所有其他的可能影响渠道。
-
相关性
工具变量要与内生解释变量高度相关,即工具变量影响内生解释变量的力度( powerful condition要大。也就是说,Cov(X,Z)要大。
4.两阶段最小二乘法(2SLS)怎么做
-
2SLS 的原理
* 对于模型: * * y = x1*b1 + x2*b2 + e 假设 Corr(x2,e)!=0 * * 若存在两个工具变量 z1 和 z2,我们我将得到两个 IV 估计量, * 问题:如何将这两个IV估计量合并起来? *-- 解决方法:两阶段最小二乘法——2SLS * 第一步: * reg x2 on z1 z2, 得到 x2 的拟合值 x_2,x_2 可视为 x2 的工具变量 * 第二步: * reg y on x1 x_2, 即执行 IV 估计。 * * 特别说明: * 虽然基本思想是这样的,但我们不能如此操作,因为这种方法是错误的! * 参见: pp.215 Book_Baum_2006.pdf
-
2SLS 的 Stata实现 ivergress
use hsng2.dta, clear des rent pcturban hsngval faminc reg2-reg4 sum rent pcturban hsngval faminc reg2-reg4 *-基本命令格式 ivregress 2sls rent pcturban (hsngval = faminc reg2-reg4) est store r2sls_0 * 注: rent为因变量,hsngval为内生解释变量,faminc reg2-reg4为工具变量。 *-稳健型标准误 ivregress 2sls rent pcturban (hsngval = faminc reg2-reg4),vce(robust) est store r2sls_rb *-Bootstrap标准误 ivregress 2sls rent pcturban (hsngval = faminc reg2-reg4), /// vce(bs,reps(200)) est store r2sls_bs local mm "r2sls_0 r2sls_rb r2sls_bs" esttab `mm', mtitle(`mm') ```
5. 工具变量法三大检验
1.1 内生性检验
所谓“内生性检验”说的是你的模型中是否存在内生性问题。原假设是不存在内生性问题,即,你所怀疑的内生变量与干扰项不相关。从结果来看,无法拒绝原假设,即,不存在内生性问题。如果是这样的,后续的检验可能就不需要了,之际做 OLS 即可,它更为有效。
1.2 过度识别检验
所谓“过度识别检验”说的是,你的工具变量与干扰项不相关,这是保证工具变量合理性的另一个要求。原假设是所有的工具变量与干扰项都不相关。从 Sargan 结果来看,无法拒绝原假设,表明不存在过度识别问题。
1.3 弱工具变量的检验
所谓“弱工具变量检验”说的是,你所选择的一系列工具变量是否与内生变量之间有足够的相关性。原假设是:工具变量与内生变量不相关。从你的结果来看,拒绝了这个原假设,意味着你选的工具变量与内生变量有统计上显著的相关性。
6.两阶段回归最小二乘法结果输出
7.工具变量法的缺点
8.论文中工具变量法例子
https://bbs.pinggu.org/thread-4790089-3-1.html
企业数字化、专用知识与组织授权