工具＆方法丨 关于交互项的那些事（三）：遗漏变量偏差 vs 多重共线性

工具＆方法丨关于交互项的那些事（三）：遗漏变量偏差 vs 多重共线性

数据Seminar 2021-06-04

The following article is from 计量经济学及Stata应用 Author 陈强

纯粹的线性模型只是对现实世界的近似，类似于一阶泰勒展开。将线性模型推广至非线性模型的方法很多。最简单的做法就是加入平方项与交互项，这相当于二阶泰勒展开。

从数学上看，二阶泰勒展开对于（真实的）非线性函数的近似效果肯定比一次函数更好。但为什么在经济学的应用中却很少看到平方项与交互项呢？即使有交互项，也通常只是两个变量的之间的交互项，为何不考虑所有变量之间的各种可能的交互项呢？这涉及到需要在“遗漏变量偏差”（omitted variable bias）与“多重共线性”（multicollinearity）之间作权衡。

假设真实的回归模型为二次函数，比如：

但却估计了如下模型：

则

、

与

皆为遗漏变量。此时，扰动项

必然与解释变量

、

相关，导致内生性。因此，在回归方程中加入平方项与交互项，有助于缓解遗漏变量偏差。

然而，加入平方项与交互项之后，一般会导致一定程度的多重共线性，因为

与

、

存在相关性，而

则与

、

存在相关性。

不妨在 Stata 中做个模拟，假设

服从标准正态分布，而

服从自由度为5的卡方分布，考察一次项与二次项的相关性有多强。

clear all

set seed 1

set obs 1000

gen x1=rnormal()

gen x2=rchi2(5)

gen x1_2=x1^2

gen x2_2=x2^2

gen x1_x2=x1*x2

pwcorr x1 x1_2 x1_x2,sig star(.5)

pwcorr x2 x2_2 x1_x2,sig star(.5)

结果显示，

与

的相关系数高达0.86，而

与

的相关系数更是达到0.95。其中，由于

服从卡方分布，取值始终为正，故

与

的相关性较强。另一方面，由于

服从正态分布，取值可正可负，故

与

的相关性较弱，但依然在1%的水平上显著负相关。

总之，加入二次项之后，一般很难避免多重共线性。由于多重共线性具有方差膨胀（variance inflation）的作用，故加入二次项后一般会使得估计量的方差增大，导致回归系数的显著性下降。这当然不是我们想看到的效果。

那么，究竟是否应该在回归模型加入二次项呢？这就涉及到如何在遗漏变量偏差与多重共线性之间进行权衡。

当然，如果线性模型已经是对于现实世界的足够好近似，那么就可以忽略遗漏变量偏差，而不必加入二次项或高次项了。为此，可以进行“回归方程设定误差检验”（Ramsey's RESET检验，即Regression Equation Specification Error Test）。比如，如果完整的方程为：

则可对原假设

进行F 检验，详见《高级计量经济学及Stata应用》，第120页。如果接受此原假设，则线性模型足矣，万事大吉。反之，如果拒绝此原假设，则应考虑加入二次项。

如果在模型中加入二次项，则一般应在论文中同时汇报仅包含一次项的简洁模型，以及包含二次项的完整模型之估计结果，这是所谓“稳健性检验”（robustness checks）的一种形式。如果两种模型的定性结果类似（qualitatively similar），或者不影响你感兴趣变量的显著性与符号，则也很容易处理。

困难之处在于，有时简洁模型与完整模型的结果并不一致，甚至影响了统计显著性或回归系数的符号。而产生这种现象的原因依然是遗漏变量偏差或多重共线性。

如果存在遗漏变量偏差，则简单的线性模型并不一致，而包含二次项的完整模型才是一致估计，故二者的估计结果大相径庭，也在情理之中。

另一方面，即使遗漏变量偏差不存在或较微弱，加入二次项所导致的多重共线性，也可能通过“方差膨胀因子”（variance inflation factor），增大估计量的标准误，使得原来显著的项变得不再显著。

有时甚至会出现这样一种情况，即加入交互项后，虽然交互项（即“交互效应”）显著，但原来显著的一次项（也称为“主效应”，main effect）却变得不再显著。此时，实证研究者可能会比较纠结，究竟是否应去掉“主效应”，而仅保留“交互效应”。

但如果这样做，则违反了统计学中的“层级原则”（hierarchy principle）。层级原则认为，如果模型中包含交互效应，则一定应包含主效应，即使主效应并不显著（因为包含无关变量的危害性很小）。

这是因为，如果模型中有交互效应而无主效应，则交互效应的含义将变得不好解释（相当于没有一次项的二次函数）。此时，由于没有一次项，则交互效应中其实也包含了主效应的作用。

因此，根据层级原则，在回归建模时，要么只有主效应，要么同时包含主效应与交互效应。换言之，主效应一定要包括（要不何以称为“主效应”呢），而交互效应则为备选。事实上，如果你的论文只有交互效应而没有主效应，则读者或编辑可能会认为你在玩“猫腻”，为了追求某种虚假的显著性而隐藏什么。

在下期推文中，我们将继续介绍非线性模型（比如Probit模型）中的交互效应，其解释不同于线性模型中的交互效应。

______________________________________________________

参考文献

陈强，《计量经济学及Stata应用》，高等教育出版社，2015年（配套教学视频，可在网易云课堂学习，详见：

https://study.163.com/course/introduction/1006076251.htm）

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年（配套高级计量六天现场班，北京，2019年10月1-6日，详见：

https://bbs.pinggu.org/thread-3156565-1-1.html）

►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看

►一周热文

校招丨加入企研数据，未来更多奇遇！

工具&方法 | R资源网站“四件套”推荐：教程、制图、论坛和书籍

工具＆方法丨关于交互项的那些事（二）：画交互效应图原来如此简单

特别推荐丨老姚专栏：理解自然实验和DID方法——与现场实验比较的视角

数据呈现 | R制图：棒棒糖图，展示地区经济发展差异

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

作者：陈强出处：计量经济学及Stata应用推荐：杨奇明编辑：青酱

欢迎扫描👇二维码添加关注

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉