查看原文
其他

统计计量丨工具变量法(一): 2SLS

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强


Give me a lever long enough and a place to stand, and I will move the world.

——Archimedes


实证研究的常见问题之一为 “内生性”(endogeneity),即解释变量与扰动项相关。研究者通常要花很大精力来解决内生性问题,而工具变量法则是解决内生性的常用利器。




内生性及其后果


考虑最简单的一元线性回归模型:

其中, 为被解释变量, 为解释变量, 为待估计的未知参数,下标 表示个体 (比如,第 个企业), 为随机扰动项(包含除 外影响 的所有其他因素),而 为样本容量。
内生性意味着解释变量 与扰动项 相关,即: 

如果存在内生性,则称解释变量 为 “内生变量”(endogenous variable);反之,则称 为 “外生变量”(exogenous variable)。内生性的严重后果是使得 OLS估计量不一致(inconsistent),即无论样本容量 多大,OLS 估计量 也不会收敛至真实的参数值




工具变量的思想


工具变量的思想其实很简单。虽然内生变量 是 “坏” 的变量(与扰动项相关),但仍可能有 “好” 的部分(与扰动项不相关的部分),正如坏人通常也有好的一面。如果能将内生变量 分解为内生部分与外生部分之和,则可能使用其外生部分得到一致估计。
而要实现这种分离,通常需要借助另一变量,比如 ,称为 “工具变量”(Instrumental Variable,简记 IV),因为它起着工具性的作用。
显然,并非任何变量都可以作为工具变量。首先,变量 要能够帮助内生变量 分离出一个外生部分,则变量 自身必须是 “干净”的,即满足 “外生性”( 与扰动项不相关): 

其次,变量 还须与 有一定关系,即满足 “相关性”( 相关): 




寻找内生变量的外生部分


假设找到内生变量 的有效工具变量 ,则可将 进行 OLS 回归,从而分离出 的外生部分: 

此回归称为 “第一阶段回归”(first stage regression)。由工具变量的相关性( 相关)可知, ;否则,无法实现此分离。记此回归的拟合值(fitted value)为 :

其相应的残差(residual)为: 

显然,第一阶段回归将内生变量 分解为两部分: 

其中,第一阶段回归的拟合值 为工具变量 的线性函数,故为外生部分(因为 外生);而其余的残差  为内生部分。




二阶段最小二乘法


既然第一阶段回归的拟合值 外生,故只要将 替代原模型中的内生变量 ,即可用 OLS 得到一致估计: 

称此回归为 “第二阶段回归”(second stage regression)。不难证明,在此回归中, 与扰动项 不相关。
首先,由于 为工具变量 的线性函数,故 不相关。
其次,根据 OLS 的正交性(陈强,2015,p.62),OLS 回归的拟合值与残差正交(orthogonal),故 (第一阶段回归的拟合值)与 (第一阶段回归的残差)不相关。因此,OLS 为一致估计。
由于此工具变量法通过两个 OLS 回归来实现,故称为 “二阶段最小二乘法”(Two Stage Least Squares,简记 2SLS)。




多个工具变量


如果有多个工具变量,比如 ,也不难处理,只要将这两个工具变量同时放入第一阶段回归即可: 

而第二阶段回归依然不变。




加入控制变量


在多元回归中,一般还有其他的外生变量或控制变量,比如: 

其中, 为内生变量,而 为外生变量。此时,应将外生变量  也放入第一阶段回归中。原因有二。
首先,  可作为自身的工具变量,因为 满足相关性(    自身完全相关)与外生性( 为外生变量)。
其次,如果不将外生变量  放入第一阶段回归,则无法保证第一阶段回归的残差 正交,使得第二阶段回归的扰动项 可能与 相关( 在第二阶段回归方程中),导致第二阶段回归不一致。




多个内生变量


如果只有 1 个内生变量,则仅需 1 个工具变量即可进行 2SLS 估计。类似地,如果有 2 个内生变量,则至少需要 2 个工具变量才能进行 2SLS 估计。理由如下——
假设有 2 个内生变量 ,但只有 1 个工具变量 。此时,存在两个第一阶段回归方程:

所得的拟合值分别为:

 

显然,由于 均为工具变量 的线性函数,故二者之间存在严格的线性关系。因此,将 同时放入第二阶段回归方程,将导致 “严格多重共线性”(strict multicollinearity),使得无法进行 OLS 估计。




识别条件(Identification)


由上可知,如果工具变量个数少于内生变量个数,则无法进行 2SLS 估计,称为 “不可识别”(unidentified),因为无法得到对模型参数的一致估计。
如果工具变量个数正好等于内生变量个数,则称为 “恰好识别”(just identified 或 exactly identified)。
如果工具变量个数大于内生变量个数,则称为 “过度识别”(overidentified)。在恰好识别或过度识别的情况下,均可进行 2SLS 估计;而在不可识别的情况下,则无法进行。




2SLS的大样本性质


可以证明(陈强,2015,第10章),2SLS 估计量为一致估计(consistency),且随着样本容量 增大,其渐近分布为正态分布(asymptotic normality)。
而且,如果扰动项为球形扰动项(满足同方差、无自相关),则 2SLS 为最有效率的工具变量法。如果担心扰动项存在异方差,则依然可使用稳健标准误(robust standard errors)进行统计推断。
当然,2SLS 的这些优秀性质都依赖于工具变量的有效性。那么,应如何检验工具变量的相关性与外生性呢?且看下回。
________________________________

参考文献

陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。

陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。









►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看



►一周热文

工具&方法丨还没理解主成分分析?理论与stata应用

数据呈现丨R VS Python,可视化效果孰强孰弱?

特别推荐丨老姚专栏:还拎不清主成分分析与因子分析?进来看看

工具&方法丨使用双重差分难?文献中的五套方法解惑

数据呈现 | R绘图:南丁格尔图,展示全国现制饮品店密度分布









数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存