- Regessors outnumber instruments.
工具变量太少。工具变量的个数要大于解释变量(包括被解释变量的滞后项)的个数,否则无法识别。
在大样本下,矩条件越多,GMM估计的渐近效率就越高。
一般情况下,很有可能是模型没有填写正确,比如没有把时间变量纳入模型中。
另外也可以这样理解,GMM是为了解决工具变量数量过多的问题而诞生的。如果不需要用到很多工具变量,那么应该考虑调整模型设定,比如用2SLS解决就可以了。
- Number of instruments may be large relative to number of observations.
工具变量太多。有可能导致过度识别,一般这种情况较难通过Sargan/Hansen检验(包括Hansen=1)。
矩条件的数目相对于样本数要趋向于0。如果矩条件数与样本数是等阶的,会造成“过度拟合”的问题。形象地说,我们本来要用工具变量来应付内生性问题,但是工具变量太多了,以至于几乎把内生变量完全拟合了出来,那么即使工具变量是外生的,也会导致估计量不一致。而在小样本下,过多的矩条件会造成可怕的高阶偏误,并且矩条件非线性的程度越高,偏误就越大。
要注意的是,这个问题与“弱工具变量问题”并不等价。即使这些工具变量整体上不弱,甚至每个都不弱,过多的矩条件还是会造成严重的小样本偏误。
都说矩条件的数目要远小于观察值的数目,那么多少才算“远小于”呢?一个经验法则是:工具变量的数量不超过截面分组的数量。
Suggested rule of thumb: keep number of instruments <= number of groups.
怎么减少工具变量的数量呢?除了Stata给出的pca, collapse, laglimits之外,有一些不靠谱需要理论支撑的操作列举如下:
- laglimits(a b) :a越接近于或等于b,且滞后水平越高,工具变量数量越少
For the transformed equation, lagged levels dated t-a to t-b are used as instruments, while for the levels equation, the first-difference dated t-a+1 is normally used.
- gmmstyle() :调整模型设定,减少内生变量和前定变量的数量,将其转移到外生变量ivstyle()中去
总结就是,在做模型、调整其他选项的过程中要注意工具变量的数量变化。
Two-step estimated covariance matrix of moments is singular.
Using a generalized inverse to calculate optimal weighting matrix for two-step estimation.
Difference-in-Sargan/Hansen statistics may be negative.
常规Warning,可无视。
翻译:两步协方差矩阵是奇异矩阵,(由于现实观测到的数据难免存在共线性的问题,经常导致不满足列满秩的条件,因此)使用伪逆矩阵(逆矩阵的广义形式)计算最优权重矩。
人大经济论坛有人说是两步法没有使用robust导致的,不可信。常数项或估计系数omitted
一般回归中估计系数omitted是由于多重共线性导致的。而当采用GMM时,由于GMM主要适用于短面板数据,当使用的数据T大于N,或者观测值数量过少以至无法满足其大样本性质时,经常会出现常数项或估计系数被省略的情况。
Reference
GMM做DPD,工具变量的个数为多少比较合适
广义矩估计(gmm)理论评述
GMM是IV、2SLS、GLS、ML的统领,待我慢慢道来