统计计量丨交互项模型的发现，究竟可信吗？

计量经济学服务数据Seminar 2021-06-03

收录于话题

89个

介绍我们最近的一项研究（How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice）。这项研究方法很简单，但结果令人吃惊。

我们复制了22篇政治学论文里近50个模型，这些论文来自在政治学领域的五本顶尖英文杂志（APSR、AJPS、JOP、CPS、IO）。我们发现，它们中绝大部分在建模上存在问题。我们希望在这些经验证据的基础上，通过这篇文章改进现行的做法。

我们发现的问题是什么呢？

通常来讲，社会科学家的一项主要工作，是建立一个因素与另一个因素之间的因果关系。按照惯例，我们称施加影响的因素为D，被影响的因素为Y。由于现实非常复杂，各种因素互相纠缠，社会科学家们发展了一系列实证方法来建立因果性。例如，他们通过随机实验制造D的随机扰动，观察Y是否随之产生变化。

但是，社会科学家们并不满足简单估计D对Y有影响。他们常在论文声称，D对Y的影响，取决于另一些因素，如X：当X大的时候，D对Y有巨大的正影响；当X小的时候，D对Y的影响不存在、甚至是负的。社会科学家称之有条件的因果关系，或因果效应的异质性（heterogeneoustreatment effect）。

这种说法很吸引人，因为它符合直觉。人类社会非常复杂，一个因素对另一个因素的影响，必定受到情境的约束。

在数学上，社会科学家们通常用一个线性模型来刻画三者之间的关系：

如果我们对D取一阶偏导，就得到了：D对Y的平均影响，是X的线性方程。

结果，在各种政治学的顶尖出版物中，我们就看到了下面这些图：D对Y的影响，被假设是X的线性函数，加上一上一下两条标识不确定性的曲线，研究者们就可以讲故事了。

（在经济学文献里，也有许多交互效果模型，我们也复制了几篇著名的文章——包括著名的《资源的诅咒》——发现也有类似的问题。目前，我们聚焦在政治学文献，有两个原因。一是因为数据比较可得；二是因为经济学家并不经常把条件因果关系图示出来——这就意味研究者并不仅仅把线性条件关系看作一种近似；他们相信这就是正确的模型。）

如果我们的线性模型假设是对的，那么皆大欢喜。

如上图所示，假设D取两个数值：1（实验组）或0（对照组）。在这两组里，Y的条件均值都与X呈线性关系。那么，D对Y的条件因果效应，就是蓝线和红线的差。也就是说，在X数值较小的时候，D的效应是负的（蓝线低于红线）；当X较大的时候，D的效应是正的（蓝线高于红线）。

世界要是这么简单就好了

在我们接触的绝大部分数据样本里中，我们发现两个严重的问题。

第一，线性的条件因果关系不成立。因为红线往往不是线性的，蓝线也不是，他们的差在绝大多数情况下也不是线性的。即使我们把线性模型作为真实模型的一阶近似，结果也常常会误导人。

出现这种情况，经常是由于X的分布过于扭曲(统计上，用skewness和kurtosis来度量)，不少接近指数分布。我们知道，如果两个随机变量是多元正态分布的，那么它们的期望呈线性关系。在现实中，这个假设往往不成立，所以线性假设也就很成问题了，

第二，对于不同数值的D，数据覆盖的X的范围相差很大。这是我们通常说的无重叠覆盖（lack of overlap）的问题。也就是说，在一部分X区域里，只有红点；在另一部分X区域里，只有蓝点。那么，要获得蓝线和红线的差，只能靠把线向外推（extrapolation）或向内连起来（interpolation）了。这两种情况，都强烈地依赖线性模型假定。

我们来看一个特别极端的例子。这篇论文发表在《InternationalOrganization》（国际组织，IO）杂志2009年第四期。IO是国际关系领域最好的杂志之一。作者表示，联合国授权会影响美国人对美国外交政策的支持程度，并且，当安理会其他成员国与美国的政策偏好越不同，这种政策的影响就越大。

可是当我们把数据画出来却发现，1946至2001年间，安理会只有6次授权。而且，这6个点所在的X的区域非常小。（需要指出，作者在文章里并没有隐藏这一点，并因此在语言做了一些模糊处理。但是看到数据，我仍然非常吃惊。）

结果，所谓的条件因果关系，完全是由线性模型外推而来的（这里，我们且不说因果性是否成立）。

如何避免这种情况发生呢？

我们有两个建议。第一，画图。研究者在跑回归之前，一定要对数据的原貌有所了解，再去做较正式的统计分析——因为大部分我们常用的估计方法对异常值非常敏感，而且不会暴露无重叠覆盖和非线性这样的问题。

第二，把模型设定得更加灵活。一个最简单的办法是把X分成几组，然后对模型稍加调整，看组内估计值是否与线性模型一致。下图是一个理想的情况。

另外，我们还提供了一种基于Kernel的简单的半参数估计方法：

我们用这两种估计办法，再加上四个统计检验方法，把22篇文章中的所有46个例子都过了一篇，就生成下面这些图。我们发现，许多分组估计值与线性条件因果假设下的估计值差异非常大。总的来说，非线性和数据无重叠覆盖的问题非常严重。

比如下面这是个非线性条件因果关系的典型例子。左图的阴影部分是通行方法得到的条件因果效应的估计值；右图是Kernel估计法得到的结果。

也有堪称完美的例子。在下面这个例子，不仅重叠覆盖（overlap）不成问题，线性假设看起来也是成立的。但这种情况非常少见。这个例子来自一项实验研究。显然，这并不是巧合。

总结一下。我们搜索了最近十年发表在政治学顶尖英文期刊上几乎所有与条件因果效应（或交互项模型）有关的研究，并且复制了我们能够找到数据的研究（筛选的细节请见论文；我们实际复制的研究数量远大于22篇，许多研究因为各种原因被剔除了）。

我们发现，线性条件因果效应的效应通常不成立，并且常常伴随出现样本无重叠覆盖的情况。在22篇文章的46个案例中，只有3个通过我们了的检验。这个问题在五本杂志中都存在。

我们希望通过这个简单的练习，可以改进通行的估计方法。

最后，我想再次感谢为我们提供数据的作者们。作为研究者，我很理解自己的研究遭人批评的复杂心态。我们指出的这个建模问题，很大程度上并不是研究者的责任，因为他们采取的是政治学领域内大部分实证研究者使用的通行做法。

完成这项研究后，我们把结果发给所有作者，请他们提意见或指出我们的错误。他们中的大部分人以非常专业的态度回应我们的批评，甚至有学者大度地表示会将新的证据放在网站上供读者参考。这种科学精神另人敬佩。

虽然我们在论文里谢过了，还是想再谢谢他们。

►一周热文

发布丨2019年年终盘点之转载热门文章TOP10

发布丨2019年年终盘点之原创热门文章TOP10

老姚专栏丨伪相关、FWL定理与偏相关系数

统计计量丨政策效应评估的四种主流方法（Policy evaluation）

数据呈现丨R语言：逻辑回归模型可视化分析

统计计量丨双重差分法的平行趋势假定

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

出处：计量经济学服务中心推荐：简华（何年华）编辑：青酱

欢迎扫描👇二维码添加关注

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？