高级计量经济学 17：面板二值选择模型

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

我只将个人会用到的知识作了笔记，并对教材较难理解的部分做了进一步阐述。为了更易于理解，我还对教材上的一些部分（包括证明和正文）做了修改。

仅供学习参考，请勿转载，侵删！

17 非线性面板
- 17.1 面板二值选择模型
- 17.2 面板二值选择模型的 RE 估计
- 17.3 面板二值选择模型的 FE 估计
- 17.4 二值选择 FE 模型的估计方法：充分统计量

$\S \text{ 第 17 章 } \S$

$\text{非线性面板}$

17.1 面板二值选择模型

对于面板数据，如果被解释变量为虚拟变量，则称为面板二值选择模型（binary choice model for panel data）。对于二值选择行为，通常可以通过一个潜变量（latent variable）来概括该行为的净收益（收益减去成本）。如果净收益大于0，则选择做；否则选择不做。假设净收益为：
$y_{i t}^{*}=\boldsymbol{x}_{i i}^{\prime} \boldsymbol{\beta}+u_{i}+\varepsilon_{i t} \quad(i=1, \cdots, n ; t=1, \cdots, T) \quad (17.1)$
其中，净收益 $y_{it}^\star$ 为不可观测的潜变量， $u_i$ 为个体效应（individual effects），而解释变量 $\boldsymbol x_{it}$ 不含常数项。个体的选择规则为：
$y_{i t}=\left\{\begin{array}{ll} 1 & \text { 若 } y_{i t}^{*}>0 \\ 0 & \text { 若 } y_{it}^{*} \leqslant 0 \end{array}\right.$
给定 $\boldsymbol x_{it}$ ， $\boldsymbol \beta$ ， $u_{it}$ ，则有：
$\begin{aligned} \mathrm{P}\left(y_{i t}=1 \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right) &=\mathrm{P}\left(y_{i t}^{*}>0 \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right) \nonumber \\ \nonumber &=\mathrm{P}\left(\boldsymbol{x}_{i i}^{\prime} \boldsymbol{\beta}+u_{i}+\varepsilon_{i t}>0 \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right) \\ \nonumber &=\mathrm{P}\left(\varepsilon_{i t}>-u_{i}-\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta} \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right) \\ \nonumber &=\mathrm{P}\left(\varepsilon_{i t}<u_{i}+\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta} \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right) \\ \nonumber &=F\left(u_{i}+\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}\right) \nonumber \end{aligned}$
其中， $F(\cdot)$ 为误差项 $\varepsilon_{it}$ 的累积分布函数（cdf），并假设 $\varepsilon_{it}$ 的密度函数关于原点对称。如果 $\varepsilon_{it}\sim N(0,1)$ 则为 Probit 模型：
$\mathrm{P}\left(y_{i t}=1 \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right)=\Phi\left(u_{i}+\boldsymbol{x}_{i i}^{\prime} \boldsymbol{\beta}\right)$
如果 $\varepsilon_{it}$ 服从逻辑分布，则为 Logit 模型：
$\mathrm{P}\left(y_{i t}=1 \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right)=\Lambda\left(u_{i}+\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}\right)=\frac{\mathrm{e}^{u_{i}+x_{i j}^{\prime} \boldsymbol{\beta}}}{1+\mathrm{e}^{u_{i}+x_{i i}^{\prime} \boldsymbol{\beta}}}$
面板二值选择模型主要估计方法包括：

混合回归
随机效应估计
固定效应估计

在方程 $(17.1)$ 中，如果 $u_1=\cdots=u_n$ ，即没有个体效应，则为混合回归（pooled probit or pooled logit），可将此面板数据作为横截面数据处理（参考《高级计量16》），此时，只需要使用截面数据的相关 Stata 命令即可进行混合回归。然而，由于同一个体不同时期的扰动项可能存在自相关，故应使用以面板为聚类的聚类稳健标准误（cluster-robust standard error）。

17.2 面板二值选择模型的 RE 估计

更一般地，我们允许个体效应存在，即不同的个体拥有不同的 $u_i$ 。如果 $u_i$ 与所有解释变量 $\boldsymbol x_{it}$ 均不相关，则称为随机效应模型（Random Effect Model, RE, 见《高级计量16》）；否则为固定效应模型（Fixed Effect Model, FE）。

首先考虑 RE 模型。对于线性面板的 RE 模型，一般使用广义最小二乘法（GLS）进行估计。但非线性面板不便使用GLS，故转而使用最大似然估计（MLE）。假设 $u_i\sim N(0,\sigma_u^2)$ ，记密度函数为 $g(u_i)$ 。以 Logit 模型为例，给定 $u_i$ ，则个体 $i$ 的条件分布为（参考《高级计量14》）：
$f\left(y_{i 1}, y_{i 2}, \cdots, y_{i T} \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right)=\prod_{i=1}^{r}\left[\Lambda\left(u_{i}+\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}\right)\right]^{y_{i}}\left[1-\Lambda\left(u_{i}+\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}\right)\right]^{1-\gamma_{i}}$
然而，上式的 $u_i$ 不可观测，为此，记 $(y_{i1},\cdots,y_{in},u_i)$ 的联合密度为 $f(y_{i1},\cdots,y_{in},u_i)$ ，并进行如下分解：
$f\left(y_{i 1}, y_{i 2}, \cdots, y_{i r}, u_{i}\right)=f\left(y_{i 1}, y_{i 2}, \cdots, y_{i r} \mid u_{i}\right) \cdot g\left(u_{i}\right)$
在 $(y_{i1},\cdots,y_{in},u_i)$ 的联合密度重，将 $u_i$ 积分去掉，即可得到 $(y_{i1},\cdots,y_{in})$ 的边缘密度：
$\begin{aligned} f\left(y_{i 1}, y_{i 2}, \cdots, y_{i T}\right) &=\int_{-\infty}^{+\infty} f\left(y_{i 1}, y_{i 2}, \cdots, y_{i r}, u_{i}\right) \mathrm{d} u_{i} \\ &=\int_{-\infty}^{+\infty} f\left(y_{i 1}, y_{i 2}, \cdots, y_{i r} \mid u_{i}\right) \cdot g\left(u_{i}\right) \mathrm{d} u_{i} \\ &=\int_{-\infty}^{+\infty}\left\{\prod_{i=1}^{r}\left[\Lambda\left(u_{i}+\boldsymbol{x}_{i i}^{\prime} \boldsymbol{\beta}\right)\right]^{y_{i}}\left[1-\Lambda\left(u_{i}+\boldsymbol{x}_{i i}^{\prime} \boldsymbol{\beta}\right)\right]^{1-\gamma_{i}}\right\} \cdot g\left(u_{i}\right) \mathrm{d} u_{i} \end{aligned}$
上面的积分没有解析解，可以通过数值求解的方法求解，这里就不再叙述了。

假设不同个体的观测值相互独立，则可以写出整个样本的似然函数。最大化此似然函数即得到 $\boldsymbol \beta$ 的RE Logit 估计量 。如果将上述方程的逻辑分布 $\Lambda (\cdot)$ 改为正态分 $\Phi(\cdot)$ ，那么就是 RE Probit 估计量。由于不同个体的观测值相互独立，故不同个体的扰动项也不相关，但由于 $u_i$ 的存在，同一个体不同时期的扰动项之间仍存在相关：
$\operatorname{Cov}\left(u_{i}+\varepsilon_{i t}, u_{i}+\varepsilon_{i s}\right)=\left\{\begin{array}{ll} \sigma_{u}^{2} & \text { 若 } t \neq s \\ \sigma_{u}^{2}+\sigma_{\varepsilon}^{2} & \text { 若 } t=s \end{array}\right.$

求 $\operatorname{Cov}\left(u_{i}+\varepsilon_{i t}, u_{i}+\varepsilon_{i s}\right)$ 。
$\begin{split} \operatorname{Cov}\left(u_{i}+\varepsilon_{i t}, u_{i}+\varepsilon_{i s}\right) &= \operatorname{Cov}\left(u_{i}+\varepsilon_{i t}, u_{i}\right) + \operatorname{Cov}\left(u_{i}+\varepsilon_{i t}, \varepsilon_{i s}\right) \\ &= \operatorname{Cov}\left(u_{i}, u_{i}\right) + \underbrace{\operatorname{Cov}\left(\varepsilon_{i t}, u_{i}\right) }_{=0}+ \underbrace{\operatorname{Cov}\left(u_{i}, \varepsilon_{i s}\right)}_{=0} + \underbrace{\operatorname{Cov}\left(\varepsilon_{i t}, \varepsilon_{i s}\right)}_{取决于t=s}\\ & = \sigma_u^2 + \sigma_\varepsilon^2 \end{split}$
即为所求。

如果 $t\ne s$ ，那么自相关系数为：
$\rho \equiv \operatorname{Corr}\left(u_{i}+\varepsilon_{i t}, u_{i}+\varepsilon_{i s}\right)=\frac{\sigma_{u}^{2}}{\sigma_{u}^{2}+\sigma_{s}^{2}}$
如果 $\rho$ 越大，就表示复合扰动项 $u_i+\varepsilon_{it}$ 中个体效应 $u_i$ 的部分比较大，不能忽视个体效应；极端地，如果 $\rho=0$ ，就表示复合扰动项中 $u_i \to 0$ ，个体效应接近没有，故应该使用混合回归模型。

17.3 面板二值选择模型的 FE 估计

在面板二值选择模型中，如果个体效应 $u_i$ 与解释变量 $\boldsymbol x_{it}$ 相关，那么就是 FE 模型，
$\mathrm{P}\left(y_{i t}=1 \mid \boldsymbol{x}_{i t}, \boldsymbol{\beta}, u_{i}\right)=F\left(u_{i}+\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}\right)$
其中， $F(\cdot)$ 可以是 $\Lambda(\cdot)$ 或者 $\Phi(\cdot)$ 。此时，如果使用 RE 模型或混合回归则得不到一致估计。

对于线性面板数据模型，参考《高级计量16》，一般采用组内估计量或者一阶差分来消去固定效应 $u_i$ ，然后就可以正确估计 $\boldsymbol \beta$ 。但对于非线性面板数据而言，这些变换一般不起作用，因为无法建立可观测的 $(y_{it}-\bar y_i)$ 与不可观测的 $(y_{it}^\star-\bar y_i^\star)$ （即潜变量 $y_i^\star$ 的组内离差）之间的对应关系。
就算使用虚拟变量法（LSDV法），对于二值选择的固定效应模型，也仍然得不到一致估计（除非 * $T \to \infty$ ），这是因为，当 $n\to\infty$ 时，待估计的个体效应 $\{u_i\}_{i=1}^\infty$ 的个数也随之增加。这些 $\{u_i\}_{i=1}^\infty$ 被称为伴生参数（incidental parameters）。另一方面，每一个 $u_i$ 只能由个体 $i$ 的 $T$ 个观测值来估计，而 $T$ 并不增加。对于现实的数据， $T$ 通常很小，从而 $n\to\infty$ 且 $T$ 有限时， $\hat u_i$ 不会收敛。更重要的问题是，对 $u_i$ 的不一致估计还会使得 $\boldsymbol\beta$ 的估计也不一致，这被称为伴生参数问题。

在线性面板模型中，可以通过组内变换或差分变换解决伴生参数问题，但对于固定效应的面板 Probit 模型，目前尚无法解决此类伴生参数问题。

17.4 二值选择 FE 模型的估计方法：充分统计量

对于固定效应的面板 Logit 模型，可以通过寻找 $u_i$ 的充分统计量（sufficient statistic），然后在给定此充分统计量的条件下进行条件最大似然估计（conditional MLE）。

充分统计量是统计学的一个概念。考虑总体参数 $\theta$ 与统计量 $W$ 。如果统计量 $W$ 包含了样本中所有可以用来估计 $\theta$ 的信息，则称 $W$ 是参数 $\theta$ 的充分统计量。

换言之，给定 $W$ 以后，任何根据样本计算的其他统计量都不可能提供关于 $\theta$ 的额外信息。

对于 Logit 模型，Chamberlain（1980）提出使用
$n_i \equiv \sum_{t=1}^T y_{it}$
作为 $u_i$ 的充分统计量，并计算在给定 $n_i$ 情况下的条件似然函数（根据充分统计量的性质，此似然函数不再依赖于 $u_i$ ），然后进行条件似然最大估计。然而，对于 Probit 模型，却找不到 $u_i$ 的充分统计量。

以最简单的两期模型为例进行说明，即 $T=1$ 。此时，对于个体 $i$ ，只有以下三种可能： $n_i = y_{i1}+y_{i2} = 0,1,2$ 。下面分别考虑着三种情形：

(1) $n_i=0$

$n_i=0$ ，此时必然 $y_{i1}=y_{i2}=0$ ，从而 ${\rm P}(y_{i1}=0,y_{i2}=0 | n_i=0)=1$ ，其对数似然函数为 $ln 1=0$ ，故对整个样本的似然函数没有贡献。

直观来看，由于此条件似然函数的取值为常数，故此观测值不包含任何可以用于估计 $\boldsymbol \beta$ 的信息，因此，在进行条件似然估计时，是否包含这些观测值并不影响估计结果。

事实上，等于损失了这些样本的观测值。

(2) $n_i=2$

$n_i=2$ ，此时必然 $y_{i1}=y_{i2}=1$ ，从而 ${\rm P}(y_{i1}=1,y_{i2}=2 | n_i=2)=1$ ，同理，这些观测值并不包含任何有助于估计 $\boldsymbol\beta$ 的信息，应该忽略

(3) $n_i=1$

此时，或者 $(y_{i1}=0, y_{i2}=1)$ 或者 $(y_{i1}=1,y_{i2}=0)$ ，分别计算其条件概率为：
$\begin{array}{l} P\left(y_{i 1}=0, y_{i 2}=1 \mid n_{i}=1\right)=\frac{P\left(y_{i 1}=0, y_{i 2}=1\right)}{P\left(y_{i 1}=0, y_{i 2}=1\right)+P\left(y_{i 1}=1, y_{i 2}=0\right)} \quad (17.12)\nonumber \\ P\left(y_{i 1}=1, y_{i 2}=0 \mid n_{i}=1\right)=\frac{P\left(y_{i 1}=1, y_{i 2}=0\right)}{P\left(y_{i 1}=0, y_{i 2}=1\right)+P\left(y_{i 1}=1, y_{i 2}=0\right)} \quad (17.13)\nonumber \end{array}$
假设给定 $u_i$ 和 $\boldsymbol x_{it}$ 的条件下， $y_{i1}$ 和 $y_{i2}$ 相互独立，则：
$\begin{array}{l} P\left(y_{i 1}=0, y_{i 2}=1\right)=\frac{1}{1+e^{u_{i}+x_{i 1}^{\prime}\boldsymbol\beta}} \cdot \frac{e^{u_{i}+x_{i 2}^{\prime} \boldsymbol\beta}}{1+e^{u_{i}+x_{i 2}^{\prime}\boldsymbol\beta}} \quad (17.14)\nonumber\\ P\left(y_{i 1}=1, y_{i 2}=0\right)=\frac{e^{u_{i}+x_{i 1}^{\prime} \boldsymbol\beta}}{1+e^{u_{i}+x_{i 1}^{\prime} \boldsymbol\beta}} \cdot \frac{1}{1+e^{u_{i}+x_{i2}^{\prime}\boldsymbol\beta}}\quad (17.15)\nonumber \end{array}$
将表达式 $(17.14)$ 和 $(17.15)$ 代入 $(17.12)$ 中，可得：
$\begin{aligned} \mathrm{P}\left(y_{i 1}=0, y_{i 2}=1 \mid n_{i}=1\right) &=\frac{\mathrm{e}^{u_{i}+x_{i} \beta}}{\mathrm{e}^{u_{i}+x_{i 1} \beta}+\mathrm{e}^{u_i+x_{i} \beta}} \nonumber \\ &=\frac{\mathrm{e}^{x_{i2}^\prime \beta}}{\mathrm{e}^{x_{i 1} ^\prime\beta}+\mathrm{e}^{x_{i2}^\prime \beta}}=\frac{\mathrm{e}^{\left(x_{i2}-x_{i 1}\right)^\prime \cdot \beta}}{1+\mathrm{e}^{\left(x_{i 2}-x_{i 1}\right)^{\prime} \beta}}=\Lambda\left[\left(x_{i 2}-x_{i 1}\right)^{\prime} \beta\right] \quad (17.16) \nonumber \end{aligned}$
注意到， $u_i$ 在分子分母都有 $e^{u_i}$ 项，于是被消除了。同理，将 $(17.14)$ 和 $(17.15)$ 代入 $(17.13)$ 可得：
$\mathrm{P}\left(y_{i 1}=1, y_{i 2}=0 \mid n_{i}=1\right)=\Lambda\left[-\left(\boldsymbol{x}_{i 2}-\boldsymbol{x}_{i 1}\right)^{\prime} \boldsymbol{\beta}\right]=1-\Lambda\left[\left(\boldsymbol{x}_{i 2}-\boldsymbol{x}_{i 1}\right)^{\prime} \boldsymbol{\beta}\right] \quad (17.17)$
如果定义虚拟变量：如果 $(y_{i1}=0, y_{i2}=1)$ 则 $d_i=1$ 否则 $d_i=0$ ，那么就可以把 $(17.16)$ 和 $(17.17)$ 写在一起，并将个体 $i$ 的条件对数似然函数写为：
$\ln L_{i}(\boldsymbol{\beta})=\left\{d_{i} \ln \Lambda\left[\left(\boldsymbol{x}_{i2}-\boldsymbol{x}_{i 1}\right)^{\prime} \boldsymbol{\beta}\right]+\left(1-d_{i}\right) \ln \{ 1-\Lambda\left[\left(\boldsymbol{x}_{i 2}-\boldsymbol{x}_{i 1}\right)^{\prime} \boldsymbol{\beta}\right\}\right\} \cdot \boldsymbol 1\left(n_{i}=1\right) \quad (17.18)$
其中 $\boldsymbol 1(\cdot)$ 为示性函数，表示仅考虑 $n_i=1$ 的观测值。上式对 $i$ 加总，即可得到整个样本条件对数似然函数。

从 $(17.18)$ 我们发现：

给定 $n_i$ 的条件似然函数不再依赖于 $u_i$
此条件似然函数仍为 Logit 模型，只是解释变量变为 $\boldsymbol x_{i2} - \boldsymbol x_{i1}$
不随时间变化的变量将无法识别其系数，因为其 $x_{i2} - x_{i1} =0$
固定效应似然函数并不包含积分，不需要进行积分计算

更一般地，对于 $T>2$ ，可以计算给定 $n_i=1,n_i=2,\cdots,$ 或 $n_i=T-1$ 的条件似然函数。固定效应模型的缺点是，将损失所有 $n_i=0$ 或 $n_i=T$ 的观测值，导致样本容量减少；并且由于 $u_i$ 消去了，也无法估计个体效应 $u_i$ ，也无法预测 $y_i$ 发生的概率或解释变量对 $y_i$ 的边际效应。解决的方法是假设 $u_i=0$

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,194评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,058评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,780评论 0赞 346
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,388评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,430评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,764评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,907评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,679评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,122评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,459评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,605评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,270评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,867评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,734评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,961评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,297评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,472评论 2赞 348

高级计量经济学 17：面板二值选择模型