参考文献:MacKinnon, J.G., Nielsen, M.Ø., Webb, M.D., 2023c. Leverage, influence, and the Jackknife in Clustered Regression Models: Reliable Inference Using Summclust. Stata Journal (accepted).
金兰(2023a,b,c)等今年算是把回归中的聚类标准误给大家说明白了。前两篇文章已经在JoE上发表了,后一篇文章被stata接收。
现在,经济学和其他学科的经验研究都用聚类稳健标准误来对线性回归系数做推断。一般来说,N个观测样本会分别被配置(划分)到G个聚类组群中,例如,家庭、学校、村庄、地区、行业、年份、国家等等。样本配置到聚类的机制通常是已知的,不同聚类中的观测样本假设是独立的,但是聚类内部的样本之间允许异方差,或者相互依赖。在这些假设下,聚类稳健标方差矩阵(CRVE)会得到渐进有效的t检验、Wald检验和置信区间。但是,即使样本量N非常大,当聚类G的数量不大,或者聚类分布不均(各个聚类中的个体数量差异性非常大等等),聚类稳健推断也可能不可靠,见许文立和孙磊(2023,数量经济技术经济研究)。
聚类稳健推断的文献是最近几年计量理论进展的一大领域(注:我今年会给一篇相关的理论和应用文献回顾与实践指南的工作论文《我们要多相信线性回归的标准误?推断框架的最新理论进展与实践指南》)。Cameron and Miller (2015)、Conley, Gonçalves, and Hansen (2018)、MacKinnon, Nielsen, and Webb (2023a)均给出了聚类稳健推断的最新进展综述。
目前,存在两种情形下聚类稳健t检验和wald检验会过度拒绝处理效应(标准误偏大):① 一个或少量聚类组群规模比其它聚类组群大很多;② 所有的处理个体仅仅属于少量的聚类组群。Djogbenou, MacKinnon, and Nielsen (2019)讨论了第一种情形。MacKinnon and
Webb (2017a,b, 2018)讨论了第二种情形。
在两种情形下,有一些(一个)聚类组群对OLS估计有极大的影响。MacKinnon, Nielsen,Webb(2023c)将这种具有极大影响的聚类组群成为”具有较高影响力的聚类组群“。他们开发了一个stata命令来检验这类聚类组群。这种检验对于诊断聚类稳健标准误是否可靠非常有帮助。
这个新的stata命令是summclust。这个命令也可以计算两类stata 18默认的jackknife方程矩阵估计量CV3和CV3J。
命令格式:
summclust depvar, yvar(varname) xvar(varlist) cluster(varname) [ options]
***************
* depvar是感兴趣的自变量
* xvar其它感兴趣的二值型/连续型自变量
* yvar 是感兴趣的因变量
* cluster聚类变量
为了说明summclust命令的用法,使用stata内置的数据集nlswork.dta,其中包括14-26岁的女性样本,为了简化分析,将样本限制在20-40岁之间。
我们用这个样本来看看女性结婚是否对工资有溢价效应。ln_wage是结果变量,工资对数;如果女性结婚,变量msp=1,否则为0,在行业层面industry聚类:
*加载数据,ols回归
webuse nlswork, clear
keep if inrange(age,20,40)
reg ln_wage i.grade i.age i.birth_yr union race msp, cluster(ind)
上述stata的ols回归结果呈现的事CV1的结果。我们也可以呈现CV3和CV3J的标准误:
*CV3
reg ln_wage i.grade i.age i.birth_yr union race msp, cluster(ind) vce(jackknife, mse)
*CV3J
reg ln_wage i.grade i.age i.birth_yr union race msp, cluster(ind) vce(jackknife)
我们也可以使用金兰等开发的summclust命令,得到上述结果:
summclust msp, yvar(ln_wage) xvar(union race) fevar(grade age birth_yr) cluster(ind)
这个命令的结果会有两张表组成,上面一张表是核心解释变量msp的系数和CV1、CV3的标准误、t值、置信区间等等。例如,上表中CV1和CV3的标准误有显著的差异,CV3标准误更大。
第二表则呈现了聚类标准误变动的原因。