身高、出生年份和出生地区等个体层面的数据来自中国健康与营养调查(CHNS)1991年的调查数据,1959-1961年饥荒期间的死亡率数据来自林毅夫和杨涛(2001)年的论文《Food Availability, Entitlements and the Chinese Famine of 1959-61》。
计量识别策略
想要识别大饥荒对幸存者的健康状况的因果效应,面临的最大难题就是数据,我们基本不可能获得到个体在大饥荒前和大饥荒后的健康状况数据(追踪调查),我们有的只是一个截面调查数据。于是,这就衍生出了队列DID这种“巧妙”的方法(developed by Duflo(2001)),我们可以根据不同出生队列的人群受到饥荒影响程度的不同来构建DID模型。在饥荒之后出生的人不会受到饥荒的影响,而那些在饥荒期间出生的人可能会受到饥荒的影响。在这篇文章中,作者将1954年至1962年出生的个体作为处理组,1963年至1967年出生的个体作为对照组。但是,如果直接比较不同出生队列的人群的健康状况的话,就会存在拿“橘子”和“苹果”进行比较的问题,因为可能存在某些无法观测和控制的混淆因素,导致不同出生队列的人群(大饥荒之后出生的人群和大饥荒期间出生的人群)的健康状况本身就存在着系统性差异(cohort trends)。这个时候,一重差分就不能准确识别大饥荒对幸存者的健康状况的因果效应。我们需要做的是在一些没有遭受饥荒的地区控制同一组人群,观察没有遭受饥荒的地区不同出生队列的健康状况之间的差异,然后再将遭受饥荒的地区和没有遭受饥荒的地区进行一次差分就好了,这样,我们才能得到“干净的”因果效应。不过,1959-1961年大饥荒是一场全国范围内的饥荒,所以基本不存在没有遭受饥荒的地区,但是不同省份遭受饥荒的严重程度是不同的,所以可以使用一个度量不同地区饥荒严重程度的连续型变量来反映地区维度的变化(连续型DID)。作者在这篇文章中利用的就是出生队列和地区两个维度的变异,构造了如下截面数据的队列双重差分模型(Cohort DID):其中,表示个体,表示地区,表示出生队列。表示身高,用以反映个体的健康状况;表示超额死亡率,等于1960年的死亡率与1956-1958年的平均死亡率之间的差值,用以度量地区饥荒严重程度;是表示个体的出生队列的虚拟变量,如果个体出生在年份,则取值为1,否则为0。表示队列固定效应,用以反映不同出生队列的异质性。参数解释:超额死亡率和出生队列虚拟变量的交互项的系数衡量的就是大饥荒对特定年份(年)出生的幸存者的健康状况的因果效应。除此之外,作者还研究了大饥荒对幸存者的劳动供给、收入和家庭财富的影响,与上面的模型类似,只是被解释变量不同,并加入了一些控制变量,在此就不再赘述。这里,我主要想给大家分享的是这篇论文的计量识别策略,至于回归结果和结论等后续部分还请大家阅读原文,在此也就不再赘述。