特别推荐丨老姚专栏：理解自然实验和DID方法——与现场实验比较的视角

Original 姚耀军数据Seminar 2021-06-03

收录于话题

推荐语：姚老师的这篇文章原计划上周推送，想不到推迟到本周竟然“蹭到了热点”。其实之前老姚专栏已经推送过一篇题为《利用实验方法进行因果识别的效度问题》的文章，涉及到利用实验方法所获因果识别结果在推而广之时可能存在的问题，因此，其实那篇更加“应景”。在该文推送之后，姚老师觉得有必要再澄清一下现场实验方法和我们经济学领域更常使用的自然实验方法的异同，以免初学者将它们混为一谈。本次诺奖除了“八卦”之外，还有不少国内发展经济学领域的学者给出了各自的评价，很庆幸诺贝尔经济学奖对于中国学者而言不再是“只可远观不容评论“。由于中国在反贫困实践领域取得了巨大成就，引起了人们对实验方法在贫困领域的应用所得结论究竟价值几何的质疑。总的来说，将学术的价值与社会实践的价值直接比较显然是不合适的，但经济学也确实无法回避人们对其理论进展在解释经济现象特别是帮助制定经济政策方面现实价值的质疑。既然实验方法并不是十全十美的，那么自然实验的研究思路，也就值得初学者反复琢磨其基本原理，本文应该能够对此提供帮助。

——杨奇明

根据文献计量分析，大约在2000年以后，“自然实验”突然成为了社会科学界的流行词。自然实验描述的是这样一个研究过程：某个外生事件的发生导致了近似于真正科学实验的场景，而细心的研究人员能够发现这一场景，并借此来识别社会科学中的因果关系。

自然实验与科学研究中的现场实验（点击回顾数据seminar推文《老姚专栏：利用实验方法进行因果识别的效度问题》）一样，发生在实验室之外的真实的社会环境中。因此，后者是理解自然实验的一个良好起点。本文对自然实验与现场实验进行比较分析，以揭示两种研究方法的异同，帮助大家更好地理解自然实验方法以及DID模型背后的逻辑。

一、现场实验案例

假设有很多面积基本相等的小块农田分布在一条河流的南北两岸，田里刚种植了水稻。一位研究者试图针对这些农田里的水稻开展现场实验，研究灌溉量对水稻产量的影响。那么，他该怎样设计实验呢？概括起来，其基本步骤是：

首先，随机分配被试（农田）至对照组与处理组。具体来说，研究者会将两岸每块农田进行编号，并将这些编号随机分成两组：在第一组（即对照组），编号所对应的农田保持正常状态，研究者不会对其作任何处理；在第二组（即处理组），编号所对应的农田须按照研究者的要求，在夏季接受额外的灌溉处理。然后，到了秋天收获的季节，研究者将比较两组平均产量的差异。

若对照组与处理组除了一组未接受处理而另一组接受了处理，在其他所有方面（例如土壤的肥力等）不存在系统性的差异，则研究者有理由把两组平均产量的差异归因于是否接受了“处理”，从而识别出额外灌溉对水稻产量的影响（即处理效应）。那么，现在关键的问题是，在其他所有方面，两组是否真的不存在系统性的差异？

答案是肯定的，原因在于研究者已经将南北两岸的每一块农田都随机分配至两组。随机分配的结果是，每一组既有南岸的农田，也有北岸的农田。即使在土壤肥力等方面，南北两岸的农田间可能存在系统性差异（例如，南岸农田可能更肥沃），而同岸的农田间也可能存在其他个体差异，但由于是随机分配，这些差异均不会导致对照组与处理组之间出现系统性的差异。

当然，无系统性差异并不意味着无差异，只是意味着若存在差异，则这种差异具有偶然性，属于所谓的抽样误差。正是由于抽样误差的存在，在比较两组平均产量差异时，研究者有必要进行统计显著性检验，以免将本应归因于抽样误差的平均产量差异误认为处理效应。

二、自然实验案例

仍假设有很多面积基本相等的小块农田分布在一条河流的南北两岸，田里刚种植了水稻。夏天到了，不时会下一场阵雨。凑巧的是，某一年最大的一场雨仅下在了南岸——南岸大雨滂沱，北岸却阳光普照。这场大雨作为一个外生事件，引起了一位研究者的注意。他认为，这场大雨提供了一个自然实验场景，为研究灌溉量对水稻产量的影响提供了绝佳机会。

原来，在这个自然实验中，南北两岸的农田被“自然”地分到了处理组与对照组。到了秋天收获的季节，研究者似乎可以如在现场实验中一样，通过比较两组平均产量的差异，来识别处理效应。那么，如果观察到当年南岸农田的平均产量确实显著高于北岸农田，这是否一定表明更多灌溉量对水稻产量具有正向影响呢？答案是不一定，因为平均产量的差异也可能完全归因于两岸农田在在土壤肥力等方面的系统性差异，譬如作为处理组的南岸农田整体上要比作为对照组的北岸农田更肥沃从而产量更高。由此可知，究竟能否采用现场实验对处理效应的识别方法，关键的问题仍在于，处理组与对照组在其他方面是否存在系统性的差异。若答案是否定的，则自然实验与现场试验无本质区别。反之，则存在本质区别。

正如前文所述，在现场实验中，研究者将南北两岸的每一块农田均随机分配至处理组与对照组，从而保证了两组在其他所有方面不存在系统性的差异。但与之相比，自然实验不能保证这一点，因为大自然只是将处理随机分配至南北两岸。最终结果可能是，南北两岸的农田分别成为了处理组与对照组，就如同本文中一样，但情况也可能恰好相反。但不管是哪种情况，若南北两岸的农田在土壤肥力等方面存在系统性差异，则表明在处理组与对照组间存在其他方面的系统性差异。

那么，南北两岸的农田在土壤肥力等方面到底存不存在系统性差异呢？稳健起见，研究者遵循“宁可信其有，不可信其无”的原则，首先假设这种系统性差异的存在。在此假设下，要正确识别出处理效应，研究者必须将这种系统性差异的影响从当年两岸农田平均产量的差异中清理出来，而这就涉及到对这种系统性差异影响的评估问题。此时，研究者不妨引入一个重要且看起来比较合理的假定——相继两年内，南北两岸农田在土壤肥力等方面所存在的系统性差异不会发生变化。值得注意的是，这并非假定南北两岸农田在土壤肥力等方面保持不变，而只是假定两岸农田所存在的这些系统性差异具有共同的变化趋势，譬如都按照相同的趋势变得更肥沃。

既然已假定两岸农田所存在的这些系统性差异大雨发生前后两年内不变，研究者就可以基于上一年系统性差异的影响，来衡量其在当年对产量差异的影响。那么，怎么衡量上年系统性差异的影响呢？显然，如果上年没有出现与当年类似的外生性事件，那么上年两岸农田平均产量的差异就是一个很好的代理变量。

现在到了大功告成的时候——记南北两岸农田的平均产量差异在当年为，在上年为，则处理效应的估计值等于。换言之，此处处理效应的估计值是“处理组与对照组在处理发生后的结果差异”与“处理组与对照组在处理发生前的结果差异”的差，我们通常称相应的计量方法为“双重差分法（即后文所指的DID方法）”。与之相异，在现场试验中，处理效应的估计值是“处理组与对照组在处理发生后的结果差异”。

三、模型化处理方式的对比

对于现场实验，研究者可以建立一个简单的虚拟变量模型：

其中 y 代表当年某块农田的产量；T 是一个虚拟变量，若某块农田属于处理组，则取值为1，否则取值为0；

代表误差项（满足零期望值以及与 T 不相关的标准假定）。对模型进行OLS估计，很容易证明，

等于当年对照组的平均产量，而

等于当年处理组与对照组的平均产量差异，此即为处理效应的估计值。

那么，对于自然实验，研究者是否可以利用模型（1）来估计处理效应呢？根据前文的分析，答案是否定的，因为仅估计了处理组与对照组在处理发生后产量的差异，而在自然实验中，处理效应的估计值是“处理组与对照组在处理发生后的结果差异”与“处理组与对照组在处理发生前的结果差异”的差。

从计量经济学原理上看，之所以不能利用模型（1）来估计自然实验中的处理效应，是因为：给定 T 的取值为1，则观测单元来自于南岸；给定 T 的取值为0，则观测单元来自于北岸，而当南北两岸农田在其他方面存在系统性差异时，就会导致 T 与不相关的假定不成立。T 与相关使得是对真实处理效应的有偏且不一致的估计，出现内生性偏差。从本质上看，这种偏差属于遗漏变量偏差——如果南北两岸农田在其他方面存在系统性差异的影响可用一个变量来捕捉，那么该变量就被模型（1）遗漏了。与之相比，对于现场实验而言，给定 T 的任何取值，观测单元有相同概率来自于南岸或者北岸。因此，即使南北两岸农田在其他方面存在系统性差异，也不会导致 T 与不相关的假定不成立。

根据以上分析，我们不难理解，对自然实验的建模要更加复杂，因为要将处理组与对照组在其他方面存在的系统性差异加以控制。具体来说，研究者可以建立一个如模型（2）所示的所谓DID（Difference in Differences）模型，来实现这一基本想法：

其中 T 是一个虚拟变量，若某块农田属于处理组（南岸），则取值为1，否则取值为0；A 也是一个虚拟变量，若时间属于处理后（当年），则取值为1，否则取值为0。对模型（2）进行OLS估计，很容易证明：南北两岸农田的平均产量差异在当年为

，在上年为

，亦即“处理组与对照组在处理发生后的结果差异”与“处理组与对照组在处理发生前的结果差异”分别为与。因此，处理效应的估计值就为与的差，等于

。

那么，具有什么含义呢？前文论及，研究者在自然实验中引入了一个重要假定：“南北两岸农田在土壤肥力等方面所存在的系统性差异不会发生变化”，或者说“南北两岸农田在土壤肥力等方面具有共同的变化趋势”。这就是对DID模型方法至关重要的“共同/平行趋势”（Common /Parallel trend）假定。共同趋势当然会在南北两岸产生相同的影响，而这正是估计值的含义所在。

不难理解，既然北岸农田作为对照组未接受处理，那么其相继两年内的平均产量变化就是对共同变化趋势影响的估计，为；南岸农田作为处理组在当年接受了处理，故其相继两年内的平均产量变化就是对共同变化趋势影响与处理效应这两部分之和的估计，为

。因此，处理效应的估计值就为与的差，等于。此处的分析其实表明了一个简单的恒等式：

“

（南岸当年均产-北岸当年均产）-（南岸上年均产-北岸上年均产）≡（南岸当年均产-南岸上年均产）-（北岸当年均产-北岸上年均产）

”

换言之，“处理组与对照组在处理发生后的结果差异”与“处理组与对照组在处理发生前的结果差异”的差，恒等于“处理组在处理发生后与发生前的结果差异”与“对照组在处理发生后与发生前的结果差异”的差。这两个差都可用“Difference in Differences”来表述，其正是DID方法称谓的由来。

四、结语

从相似之处来看，无论是现场试验还是在自然实验，为了识别处理效应，研究者均需要对处理组和对照组在处理发生后的结果进行差异比较。从相异之处来看，在现场试验中，研究者只需要对处理组和对照组在处理发生后的结果进行差异比较，并且将结果差异视为对处理效应的估计。然而在自然实验中，研究者还需要对处理组和对照组在处理发生前的结果进行差异比较，并且将“处理组和对照组在处理发生后的结果差异”与“处理组和对照组在处理发生前的结果差异”之差视为对处理效应的估计。

相异之处存在的根源在于，在现场试验中，研究者将被试随机分配至处理组与对照组，以致两组除了一组接受了处理而另一组未接受处理之外，在其他所有方面不存在系统性的差异。但在自然实验中，情况可能完全不同：如果两组个体在某一外生事件发生前存在系统性的差异，那么无论该外生事件将处理随机分配给哪一组，一般都不会导致这种系统性差异的消失。简而言之，现场实验与自然实验的不同点是：前者是随机分配被试，而后者是在不同的组别间随机分配处理。

从计量经济学原理上看，鉴于解释变量与误差项不相关这一标准假定在自然实验中可能被违背，适用于现场实验的模型并不一定适用于自然实验。在自然实验中，为了准确地识别处理效应，需对处理组与对照组在其他方面存在的系统性差异加以控制，以避免遗漏变量偏差。DID模型是关于自然实验的一个基础性模型，很好地体现了处理效应的识别策略——“处理组与对照组在处理发生后的结果差异”与“处理组与对照组在处理发生前的结果差异”的差，或者说“处理组在处理发生后与发生前的结果差异”与“对照组在处理发生后与发生前的结果差异”的差，就是对处理效应的估计。

企研学术顾问 · 姚耀军

姚耀军，1976年出生，湖北利川人，浙江工商大学金融学院教授、博士生导师，浙江省高校中青年学科带头人，浙江省首期之江青年社科学者，浙江省“151人才工程”第三层次培养人员，杭州市“十三五”哲学社会科学应用经济学学科组评审专家，企研数据学术顾问。长期从事金融发展理论与实证研究，在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇，部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级：新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。

►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看

►一周热文

工具 & 方法 | 推荐收藏！备忘清单大荟萃之Python

数据呈现丨Python绘制桑基图，流量分析不用愁

关于交互项的那些事（一）：什么是交互项？

数据呈现 | 简单易学！用Python最基础的绘图包来做动图

工具&方法 | 计量软件大搜罗，哪款是你的Mr.Right?