高级计量经济学 16：短面板(上) (修正1)

在读 paper 的时候，发现自己对短面板的框架逻辑有不全面的地方，在这里对各位读者说声对不起！

这是船新的版本，我将自己的理解融入其中，笔记顺序与教材不同。

毕竟我也是现学现卖，敬请谅解！

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

我只将个人会用到的知识作了笔记，并对教材较难理解的部分做了进一步阐述。为了更易于理解，我还对教材上的一些部分（包括证明和正文）做了修改。

仅供学习参考，请勿转载，侵删！

15 短面板
- 15.1 面板数据的特点
  - 15.1.1 面板数据
  - 15.1.2 面板数据的优缺点
- 15.2 个体效应模型
  - 15.2.1 面板数据的估计策略
  - 15.2.2 对扰动项的讨论
  - 15.2.3 个体效应模型的两大类：固定效应和随机效应
- 15.3 混合回归
- 15.4 固定效应模型的估计方法
  - 15.4.1 个体固定效应
    - a. 组内估计量
    - b. LSDV（虚拟变量法）
    - c. 一阶差分法
  - 15.4.2 时间固定效应
    - a. LSDV（虚拟变量法）
    - b. 时间趋势项

$\S \text{ 第 15 章 } \S$

$\text{短面板}$

15.1 基本术语

15.1.1 面板数据

面板数据（ panel data ），也译为平行数据（ longitudinal data ），指的是在一段时间内跟踪同一组个体（ individual ）的数据。它既有横截面的维度（ $n$ 个个体），又有时间维度（ $T$ 个时期）。

比如，一个 $T=3$ 的面板数据结构如表 15.1 所示：

通常的面板数据 $T$ 较小，而 $n$ 较大，在使用大样本理论时让 $n\to\infty$ 。这种面板数据被称为短面板（ short panel ）。反之，如果 $T$ 较大而 $n$ 较小，则被称为长面板（ long panel ）。

如果在面板数据中，每个时期的样本中的个体完全一样，则称为平衡面板数据（ balanced panel ）；反之，则称为非平衡面板数据

在面板模型中，如果解释变量包含被解释变量的滞后值，则称为动态面板（ dynamic panel ）；反之，称为静态面板（ static panel ）

15.1.2 面板数据的优缺点

(1) 面板数据的优点

可以解决遗漏变量的问题：遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决，但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或异质性（ heterogeneity ）造成的，如果这种个体差异不随时间而改变（ time invariant ），则面板数据提供了遗漏变量问题的又一利器
提供更多个体动态行为的信息：由于面板数据同时有横截面与时间两个维度，有时它可以解决单独的横截面数据或时间序列数据所不能解决的问题。比如，考虑如何区分规模效应与技术进步对企业生产效率的影响。对于截面数据来说，由于没有时间维度，故无法观测到技术进步；对于单个企业的时间序列来说，又无法区分生产效率的提高究竟有多少是来自于规模扩大，又有多少是来自于技术进步。
样本容量大：由于同时有截面维度与时间维度，通常数据的样本容量更大，从而可以提高估计的精确度。

(2) 截面数据的缺点

当然，截面数据也会带来一些问题：

样本数据通常不满足 $\rm i.i.d.$ 的假定，因为同一个体在不同时期的扰动项一般存在自相关
收集成本高，不易获得

15.2 个体效应模型

15.2.1 面板数据的估计策略

估计面板数据的一个极端策略是将其看成横截面数据而进行混合回归（ pooled regression ），即要求样本中每个个体都拥有完全相同的回归方程（在 15.3 讨论）。另一个极端策略是为每个个体估计一个单独的回归方程。

前者忽略了个体间不可观测或被遗漏的异质性，而该异质性可能与解释变量相关而导致估计不一致；后者则忽略了个体间的共性，也可能没有足够的的样本容量。

因此，在实践中常常采用折衷的估计策略：即假定个体的回归方程拥有相同的斜率，但可以拥有不同的截距，以此来捕捉异质性，如图 15.1 所示：

这种模型被称为个体效应模型（ individual-specific effects model ），其模型形式为：
$y_{i t}=\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}+\boldsymbol z_{i}^{\prime} \boldsymbol{\delta}+u_{i}+\varepsilon_{i t} \quad(i=1, \cdots, n ; t=1, \cdots, T)\quad (15.1)$
其中， $\boldsymbol z_i$ 为不随时间而变（ time invariant ）的个体特征（即 $\boldsymbol z_{it} = \boldsymbol z_i, \forall t$ ），比如性别；而 $\boldsymbol{x}_{i t}$ 则可以随个体及时间而变（ time-varying ）。扰动项由 $(u_i+\varepsilon_{it})$ 两部分构成，成为复合扰动项（ composite erroe term ），而方程 $(15.1)$ 也称为复合扰动项模型（ error compoents model ）。

15.2.2 对扰动项的讨论

较早的文献有时将 $u_i$ 视为常数，但这也只是随机变量的特例，即退化的随机变量；而 $\varepsilon_{it}$ 为随个体与时间而改变的扰动项。

我们主要关注 $u_i$ ，这是因为“个体效应模型”的个体特征来源于 $u_i$ 。 $u_i$ 在几何上代表个体异质性的截距；在统计上则代表一个扰动项：

几何上，沿用较早文献的想法，我们直接认为它就是截距就可以了。 $u_i$ 这个扰动项并不是“真正的”扰动项，“真正的扰动项”是 $\varepsilon_{it}$ 。你可以认为 $u_i$ 是某个个体的禀赋。

举个例子，我们在研究不同个体的受教育水平对其的收入的影响时，我没有把智力因素加入解释变量中。于是 $u_i$ 就可能是每个个体的智力因素（注意，它并非解释变量）。因为每个个体的智力本身是天生决定的，是随机的；但在出生以后，他的智力又不再随时间而变了。

像智力水平这种不随时间而变的扰动项，你可以认为这是一个个体天生的禀赋或者说个体天生的差异，它表现为“不同的截距”，也就是我们常津津乐道的“输在起跑线上”。
统计上，方程 $(15.1)$ 实际上是糅合了两个回归模型：
$y_{i t}=\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}+\varepsilon_{i t} ,\quad y_{i t}=\boldsymbol z_{i}^{\prime} \boldsymbol{\delta}+u_{i}$
对这两个模型，分别有属于自己的扰动项， $\varepsilon_{it}$ 和 $u_i$ ，加起来就是个体效应模型了。这样可以更好理解复合扰动项的说法，不过就难以理解截距和个体效应的说法了。

15.2.3 个体效应模型的两大类：固定效应和随机效应

在短面板，我们假设 $\{\varepsilon_{it}\}$ 为独立同分布（长面板可以放松此假定），且与 $u_i$ 不相关。另外，

如果 $u_i$ 与某个解释变量 $\boldsymbol x_{it}$ 或 $\boldsymbol z_i$ 相关，则进一步称为固定效应模型（ Fixed Effects Model, FE）。这种情况下，OLS估计是不一致的，解决的方法是将模型转换。
如果 $u_i$ 与所有解释变量 $(\boldsymbol{x}_{i t},\boldsymbol z_i)$ 都不相关，则进一步称为随机效应模型（ Random Effects Model, RE）。从经济理论的角度看，随机模型比较少见，但仍需要通过数据来检验究竟使用 FE 还是 RE。

显然，与截面数据相比，面板数据提供了更为丰富的模型与估计方法。

请十分十分重视“ $u_i$ 与某个解释变量 $\boldsymbol x_{it}$ 或 $\boldsymbol z_i$ 是否相关”这一论断

如果 $u_i$ 与某个解释变量 $\boldsymbol x_{it}$ 或 $\boldsymbol z_i$ 相关，那么我们就没有办法准确地估计 $\boldsymbol \beta$ ，这是内生性问题

为了准确地估计 $\boldsymbol \beta$ ，我们的核心思想是如何消除内生性问题

解决的办法有很多：我们可以消去 $u_i$ ，也可以人工增加一些如“虚拟变量”“时间趋势”，把内生的信息从 $u_i$ 中手动剥离出来。

先给放一个逻辑框架，免得大家混淆本文后面的模型和估计方法。

面板数据

混合回归模型（没有个体效应）

个体效应模型（有个体效应）

固定效应模型（ $u_i$ 与某个解释变量 $\boldsymbol x_{it}$ 或 $\boldsymbol z_i$ 相关）

个体固定效应

组内估计量 (处理方法) + OLS (估计方法)

LSDV法 (处理方法，即虚拟变量) + OLS (估计方法)

一阶差分法 (处理方法) + OLS (估计方法)

时间固定效应

虚拟变量 (处理方法) + OLS (估计方法)

时间趋势项 (处理方法) + OLS (估计方法)

随机效应模型（ $u_i$ 不与任何解释变量 $\boldsymbol x_{it}$ 或 $\boldsymbol z_i$ 相关）

… (我还没学)

后面别给搞混淆了😂

15.3 混合回归

如果所有个体都拥有完全一样的回归方程，也就是说每个个体连截距项都相同，那么方程 $(15.1)$ 的 $u_i$ 就都相等。我们记 $\alpha$ 为截距，即 $u_1 = \cdots =u_i\equiv \alpha$ ，那么方程 $(15.1)$ 就可以写成：
$y_{i t}=\alpha+\boldsymbol x_{i t}^{\prime} \boldsymbol{\beta}+\boldsymbol z_{i}^\prime \boldsymbol{\delta}+\varepsilon_{i t}\quad(15.2)$
其中， $\boldsymbol x_{it}$ 不包含常数项。这样，就可以把所有的数据放在一起，像对待横截面数据那样进行 OLS 回归，故被称为混合回归（ polled regression ）。混合回归可以被称为总体平均估计量（ Population-averaged estimator, PA），因为可以把它理解为将个体效应都平均掉了。

由于面板数据的特点，虽然通常可以假设不同个体之间的扰动项相互独立，但同一个体在不同时间的扰动项之间往往存在自相关。此时，对标准误的估计应该使用聚类稳健的标准误（ cluster-robust standard error ），而所谓聚类（ cluster ），就是由每个个体不同时期的所有观测值所组成。同一聚类（个体）的观测值允许存在相关性，而不同聚类（个体）的观测值则不相关。

混合回归的基本假设是不存在个体效应 $u_i$ 。对于这个假设必须进行统计检验。由于个体效应以两种不同的形态存在：固定效应、随机效应，故在下面会分别介绍其检验方法。

15.4 固定效应模型的估计方法

固定效应模型是指 $u_i$ 与某个解释变量 $\boldsymbol x_{it}$ 或 $\boldsymbol z_i$ 相关的个体效应模型。换句话说，由于存在一些遗漏变量，使得 $u_i$ 与解释变量产生内生性。所以，固定效应模型求解的关键就是如何排除内生性的干扰！

总的来看， $u_i$ 与某个解释变量 $\boldsymbol x_{it}$ 或 $\boldsymbol z_i$ 相关分成两种情况：

$u_i$ 与不随时间而变但随个体而异的遗漏变量问题，解决这问题的模型我们称为个体固定效应模型
$u_i$ 与不随个体而变但随时间而异的遗漏变量问题，解决这类问题的模型称为时间固定效应模型

我们下面来探讨如何对两种固定效应模型进行处理。

15.4.1 个体固定效应

a. 组内估计量

思想：消去 $u_i$ ，消除内生性

优点：易于操作和理解

缺点：无法估计固定效应，需要严格外生性假设

如果 $u_i$ 与某个解释变量 $\boldsymbol x_{it}$ 或 $\boldsymbol z_i$ 相关，那么此个体效应模型就变成了固定效应模型。这种情况下，OLS估计是不一致的。为了得到一致的 $\boldsymbol{\beta}$ 估计量，解决的方法是将模型转换，并将 $u_i$ 消去。

给定个体 $i$ ，将方程 $(15.1)$ 两边对时间取平均，可得：
$\bar{y}_{i}=\bar{\boldsymbol x}_{i}^{\prime} \boldsymbol \beta+\boldsymbol z_{i}^{\prime} \boldsymbol \delta+u_{i}+\bar{\varepsilon}_{i}\quad(15.3)$
用 $(15.3)-(15.1)$ 则可以得到原模型的离差形式：
$y_{it}-\bar{y}_{i}=\left(\boldsymbol{x}_{i_{1}}-\overline{\boldsymbol{x}}_{i}\right)^{\prime} \boldsymbol{\beta}+\left(\varepsilon_{u}-\bar{\varepsilon}_{i}\right)\quad(15.4)$
定义：
$\tilde{y}_{i t} \equiv y_{i t}-\bar{y}_{i}, \tilde{\boldsymbol x}_{i t} \equiv \boldsymbol x_{i t}-\bar{\boldsymbol x}_{i}, \tilde{\varepsilon}_{i t} \equiv \varepsilon_{i t}-\bar{\varepsilon}_{i}$
那么 $(15.4)$ 就变成了：
$\tilde{y}_{i t}=\tilde{\boldsymbol{x}}_{it}^{\prime} \boldsymbol{\beta}+\tilde{{\varepsilon}}_{it}\quad(15.5)$
在公式 $(15.5)$ 中， $u_i$ 已经被消去，故只要 $\tilde{{\varepsilon}}_{it}$ 与 $\tilde{\boldsymbol{x}}_{it}$ 不相关，就可以使用 OLS 一致地估计 $\boldsymbol{\beta}$ ，称为固定效应估计量（ Fixed Effects Estimator ），记为 $\hat{\boldsymbol{\beta}}_{\rm FE}$ 。由于 $\hat{\boldsymbol{\beta}}_{\rm FE}$ 使用了每个个体的组内离差信息，故也被称为组内估计量（ within estimator ）。即使个体特征 $u_i$ 与解释变量 $\tilde{\boldsymbol{x}}_{it}$ 相关，只要使用组内估计量，就可以得到一致估计，这是面板数据的一大优势。

然而，在作离差变换的过程中， $\boldsymbol z_{i}^{\prime} \boldsymbol \delta$ 也被消掉了，于是无法估计 $\boldsymbol \delta$ 。也就是说固定效应模型无法估计不随时间而变的变量的影响，这是 FE 的一大缺点。另外，为了保证 $\left(\varepsilon_{u}-\bar{\varepsilon}_{i}\right)$ 与 $\left(\boldsymbol{x}_{i{1}}-\overline{\boldsymbol{x}}_{i}\right)$ 不相关，则要求第 $i$ 个观测值满足严格外生性，即：
${\rm E}(\varepsilon_{it}|\boldsymbol{x}_{i_{1}},\dots,\boldsymbol{x}_{i_{T}})=0$
这是因为 $\bar{\boldsymbol x}_{i}$ 中包含了 $(\boldsymbol{x}_{i_{1}},\dots,\boldsymbol{x}_{i_{T}})$ 的所有信息。换言之，扰动项必须与各期的解释变量均不相关，这是一个比较强的假定。

b. LSDV法 (虚拟变量法)

思想：人工加入虚拟变量，把内生性手动外生化

优点：能够估计出个体固定效应，操作简便，可解释性强

缺点：如果 $n$ 很大，计量软件可能不支持

如果在原方程中引入 $(n-1)$ 个虚拟变量（如果没有截距，则引入 $n$ 个虚拟变量）来代表不同的个体，则可以得到与上述离差模型同样的结果，即：
$y_{i t}=\alpha+\mathbf{x}_{i t}^{\prime} \boldsymbol{\beta}+\mathbf{z}_{i}^{\prime} \boldsymbol{\delta}+\sum_{i=2}^{n} \gamma_{i} D_{i}+\varepsilon_{i t}$
其中，个体虚拟变量 $D_j=1$ 如果 $i=j$ ；否则 $D_j=0$ 。可以用 OLS 估计此方程，而且我们可以证明， LSDV 法与组内估计量 FE 完全一样。因此，FE 也被称为最小二乘虚拟变量模型（ Least Square Dummy Variable Model, LSDV）

不过，如果作完 LSDV 后发现某些个体的虚拟变量不显著将其删去，那么 LSDV 的结果就不会与 FE 相同。使用 LSDV 的好处是可以得到对个体异质性 $u_i$ 的估计（模型中的 $\gamma_i$ ），但如果 $n$ 很大，则需要在回归方程中加入很多虚拟变量，可能超出一些计量软件的最大解释变量数量。

LSDV 法深受不少研究者的喜爱，因为它操作简便，可解释性也强。

c. 15.4.3 一阶差分法

思想：消去 $u_i$ ，消除内生性

优点：只要扰动项的一阶差分与解释变量的一阶差分不相关，估计就是一致的

缺点：估计效率低

考虑固定效应模型，可以对个体效应模型 $(15.1)$ 进行差分处理：
$固定效应：y_{i t}=\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}+\boldsymbol z_{i}^{\prime} \boldsymbol{\delta}+u_{i}+\varepsilon_{i t}$

$一阶滞后：y_{i ,t-1}=\boldsymbol{x}_{i, t-1}^{\prime} \boldsymbol{\beta}+\boldsymbol z_{i}^{\prime} \boldsymbol{\delta}+u_{i}+\varepsilon_{i ,t-1}$

于是，把两个方程相减，就可以得到一阶差分方程，从而消除个体效应：
$差分模型：y_{i t}-y_{i, t-1}=\left(\boldsymbol{x}_{i t}-\boldsymbol{x}_{i, t-1}\right)^{\prime} \boldsymbol{\beta}+\left(\varepsilon_{i t}-\varepsilon_{i, t-1}\right)$
对此差分模型使用 OLS 估计即得到一阶差分估计量（ First Differencing Estimator ），记为 $\hat{\boldsymbol\beta}_{\rm DF}$ 。由于 $u_i$ 不再出现在差分方程中，只要扰动项的一阶差分 $\left(\varepsilon_{i t}-\varepsilon_{i, t-1}\right)$ 与解释变量的一阶差分 $\left(\boldsymbol{x}_{i t}-\boldsymbol{x}_{i, t-1}\right)$ 不相关，则 $\hat{\boldsymbol\beta}_{\rm DF}$ 就是一致的，这比 $\hat{\boldsymbol{\beta}}_{\rm FE}$ 的严格外生性要求更弱，是 $\hat{\boldsymbol\beta}_{\rm DF}$ 的优点。

不过，可以证明，在 $T>2$ 下， $\hat{\boldsymbol{\beta}}_{\rm FE}$ 比 $\hat{\boldsymbol\beta}_{\rm DF}$ 更有效率。因此，在实践上，主要使用 $\hat{\boldsymbol{\beta}}_{\rm FE}$ 而不是 $\hat{\boldsymbol\beta}_{\rm DF}$ 。但对于动态面板，严格外生性无法满足，则主要用 $\hat{\boldsymbol\beta}_{\rm DF}$ 。

15.4.2 时间固定效应

上面的个体固定效应解决了不随时间而变但随个体而变（time invariant）的遗漏变量问题。

类似地，引入时间固定效应，则可解决不随个体而变但随时间而变（individual invariant）的遗漏变量问题。

a. LSDV (虚拟变量法)

假设模型为：
$y_{i t}=\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}+z_{i}^{\prime} \boldsymbol{\delta}+\left(\gamma S_{j}\right)+u_{i}+\varepsilon_{i i}$
其中， $S_t$ 不可观测，定义 $\lambda_t=\gamma S_t$ ，则上式可以写成：
$y_{i t}=\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}+z_{i}^{\prime} \boldsymbol{\delta}+\lambda_t+u_{i}+\varepsilon_{i i}$
在上式，可将 $\lambda_t$ 视为第 $t$ 期独有的截距项，并将其解释为第 $t$ 期对被解释变量 $y$ 的效应。于是，这些 $\lambda_1,\cdots,\lambda_T$ 称为时间固定效应（time fixed effects）。

显然，这个模型可以用 LSDV 法来估计，即对每时期定义一个虚拟变量，然后把 $(T-1)$ 个时间虚拟变量包括在回归方程中，比如：
$y_{i t}=\boldsymbol{x}_{i i}^{\prime} \boldsymbol{\beta}+z_{i}^{\prime} \boldsymbol{\delta}+\gamma_{2} D 2_{i}+\cdots+\gamma_{r} D T_{i}+u_{i}+\varepsilon_{i}$
其中，时间虚拟变量 $D2_i=1$ 如果 $t=2$ 否则 $D2_i=0$ 。对于上面的式子，既考虑了个体固定效应（ $Dt_i$ 的 $i$ ）、又考虑了时间固定效应（ $Dt_i$ 的 $t$ ），所以称为双向固定效应（Two-way FE）。相应的，如果仅考虑个体固定效应（如15.4.1 的模型）则称为单向固定效应（One-way FE）。

b. LSDV (时间趋势项)

有些情况，为了节省参数，可以引入时间趋势项，以代替 $(T-1)$ 个时间虚拟变量：
$y_{i t}=\boldsymbol{x}_{i t}^{\prime} \boldsymbol{\beta}+z_{i}^{\prime} \boldsymbol{\delta}+\gamma t+u_{i}+\boldsymbol{\varepsilon}_{t_{i}}$
显然，这个式子隐含着一个较强的假定：每个时期的时间效应应该增长， $y_{it}$ 随时间 $t$ 是均匀增长的。

如果此假定不大可能成立，那么就应该使用 a. 的时间虚拟变量法；该方法可以独立估计每一期的时间固定效应，也可以用于判断每期的时间效应是否大致相等。