统计计量丨工具变量法（一）: 2SLS | 自由微信 | FreeWeChat

一把短刀，怎么就让他连捅18人？！

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

向不容妄议的杨市长道歉

统计计量丨工具变量法（一）: 2SLS

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

“

Give me a lever long enough and a place to stand, and I will move the world.

——Archimedes

”

实证研究的常见问题之一为 “内生性”（endogeneity），即解释变量与扰动项相关。研究者通常要花很大精力来解决内生性问题，而工具变量法则是解决内生性的常用利器。

内生性及其后果

考虑最简单的一元线性回归模型：

其中，

为被解释变量，

为解释变量，

与

为待估计的未知参数，下标

表示个体

（比如，第

个企业），

为随机扰动项（包含除

外影响

的所有其他因素），而

为样本容量。

内生性意味着解释变量

与扰动项

相关，即：

如果存在内生性，则称解释变量

为 “内生变量”（endogenous variable）；反之，则称

为 “外生变量”（exogenous variable）。内生性的严重后果是使得 OLS估计量不一致（inconsistent），即无论样本容量

多大，OLS 估计量

也不会收敛至真实的参数值

。

工具变量的思想

工具变量的思想其实很简单。虽然内生变量

是 “坏” 的变量（与扰动项相关），但仍可能有 “好” 的部分（与扰动项不相关的部分），正如坏人通常也有好的一面。如果能将内生变量

分解为内生部分与外生部分之和，则可能使用其外生部分得到一致估计。

而要实现这种分离，通常需要借助另一变量，比如

，称为 “工具变量”（Instrumental Variable，简记 IV），因为它起着工具性的作用。

显然，并非任何变量都可以作为工具变量。首先，变量

要能够帮助内生变量

分离出一个外生部分，则变量

自身必须是 “干净”的，即满足 “外生性”（

与扰动项不相关）：

其次，变量

还须与

有一定关系，即满足 “相关性”（

与

相关）：

寻找内生变量的外生部分

假设找到内生变量

的有效工具变量

，则可将

对

进行 OLS 回归，从而分离出

的外生部分：

此回归称为 “第一阶段回归”（first stage regression）。由工具变量的相关性（

与

相关）可知，

；否则，无法实现此分离。记此回归的拟合值（fitted value）为：

其相应的残差（residual）为：

显然，第一阶段回归将内生变量

分解为两部分：

其中，第一阶段回归的拟合值

为工具变量

的线性函数，故为外生部分（因为

外生）；而其余的残差

为内生部分。

二阶段最小二乘法

既然第一阶段回归的拟合值

外生，故只要将

替代原模型中的内生变量

，即可用 OLS 得到一致估计：

称此回归为 “第二阶段回归”（second stage regression）。不难证明，在此回归中，

与扰动项

不相关。

首先，由于

为工具变量

的线性函数，故

与

不相关。

其次，根据 OLS 的正交性（陈强，2015，p.62），OLS 回归的拟合值与残差正交（orthogonal），故

（第一阶段回归的拟合值）与

（第一阶段回归的残差）不相关。因此，OLS 为一致估计。

由于此工具变量法通过两个 OLS 回归来实现，故称为 “二阶段最小二乘法”（Two Stage Least Squares，简记 2SLS）。

多个工具变量

如果有多个工具变量，比如

与

，也不难处理，只要将这两个工具变量同时放入第一阶段回归即可：

而第二阶段回归依然不变。

加入控制变量

在多元回归中，一般还有其他的外生变量或控制变量，比如：

其中，

为内生变量，而

为外生变量。此时，应将外生变量

也放入第一阶段回归中。原因有二。

首先，

可作为自身的工具变量，因为

满足相关性（

与

自身完全相关）与外生性（

为外生变量）。

其次，如果不将外生变量

放入第一阶段回归，则无法保证第一阶段回归的残差

与

正交，使得第二阶段回归的扰动项

可能与

相关（

在第二阶段回归方程中），导致第二阶段回归不一致。

多个内生变量

如果只有 1 个内生变量，则仅需 1 个工具变量即可进行 2SLS 估计。类似地，如果有 2 个内生变量，则至少需要 2 个工具变量才能进行 2SLS 估计。理由如下——

假设有 2 个内生变量

与

，但只有 1 个工具变量

。此时，存在两个第一阶段回归方程：

所得的拟合值分别为：

显然，由于

与

均为工具变量

的线性函数，故二者之间存在严格的线性关系。因此，将

与

同时放入第二阶段回归方程，将导致 “严格多重共线性”（strict multicollinearity），使得无法进行 OLS 估计。

识别条件（Identification）

由上可知，如果工具变量个数少于内生变量个数，则无法进行 2SLS 估计，称为 “不可识别”（unidentified），因为无法得到对模型参数的一致估计。

如果工具变量个数正好等于内生变量个数，则称为 “恰好识别”（just identified 或 exactly identified）。

如果工具变量个数大于内生变量个数，则称为 “过度识别”（overidentified）。在恰好识别或过度识别的情况下，均可进行 2SLS 估计；而在不可识别的情况下，则无法进行。

2SLS的大样本性质

可以证明（陈强，2015，第10章），2SLS 估计量为一致估计（consistency），且随着样本容量

增大，其渐近分布为正态分布（asymptotic normality）。

而且，如果扰动项为球形扰动项（满足同方差、无自相关），则 2SLS 为最有效率的工具变量法。如果担心扰动项存在异方差，则依然可使用稳健标准误（robust standard errors）进行统计推断。

当然，2SLS 的这些优秀性质都依赖于工具变量的有效性。那么，应如何检验工具变量的相关性与外生性呢？且看下回。

________________________________

参考文献

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年。

陈强，《计量经济学及Stata应用》，高等教育出版社，2015年。

►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看

►一周热文

工具＆方法丨还没理解主成分分析？理论与stata应用

数据呈现丨R VS Python，可视化效果孰强孰弱？

特别推荐丨老姚专栏：还拎不清主成分分析与因子分析？进来看看

工具＆方法丨使用双重差分难？文献中的五套方法解惑

数据呈现 | R绘图：南丁格尔图，展示全国现制饮品店密度分布

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

作者：陈强出处：计量经济学及Stata应用推荐：杨奇明编辑：青酱

欢迎扫描👇二维码添加关注

您可能也对以下帖子感兴趣

文章有问题？点此查看未经处理的缓存