政策都没有，但DID却估计出了政策效果，这是什么鬼？-香樟经济学术圈的财新博客-财新网

推文人 | 余柯玮

原文信息

Marianne Bertrand,Esther Duflo,and Sendhil Mullainathan.2004."How Much Should We Trust Differences-in-Differences Estimates?" Quarterly Journal of Economics, 119(1):249-275.

DID（Differences-in-Differences,译名有双重差分法、倍差法等）在经验研究中被广泛运用，备受学者宠爱。DID是如此流行，以致不懂DID都会被圈子里的人看不起。然而，DID会在政策本来不存在的情形下凭空估计出显著的政策效果！！留意到这一点的圈内人并不多。Bertrand, Duflo和Mullainathan （2014）专门讨论了这个问题，并提出了相应解决方案。

到底是什么鬼？

文中用美国1979年-1999年当前人口调查（Current Population Survey,简称为CPS）数据素描了DID背后这个鬼。作者具体使用的样本是90万名来自50个州的25岁-50岁的女性，包括周收入、就业状态、受教育年限、年龄和居住地所在州等变量。在这90万名女性中，约54万名的周收入大于零。作者的回归只使用这54万名女性组成的样本，回归的因变量是周收入的对数。

首先，作者验证了，本身没有政策时，但DID却凭空估计出了政策效果，即犯了第一类错误（待检验的原假设是“没有政策效果”，但回归却在5%的显著性水平上拒绝了原假设）。验证步骤如下：

第一步，从1985年至1995年间（包括1985年和1995年）随机抽出一年。定义变量policy，在抽出那年之前取值为0，在抽出那年及之后取值为1。之所以从1985年至1995年间抽取，是为了保证样本期间（1979年-1999年）在抽出年份之前和之后都有足够多的年份。作者随机抽取了200次。

第二步，从50个州中随机抽取出25个，将这25个州定义为处理组。定义变量group，当观测值属于这25个州时取值为1，否则为0。

第三步，用对数周收入对policy*group和受教育年限、年龄、年份固定效应、州固定效应做普通最小二乘法回归。显然，policy*group的系数β就是政策效应。作者为每个policy做了这样一个回归，故共做了200个回归。

由于上述政策是虚构的、现实中（即数据中）根本就没有这个政策，我们预计，上面得到的200个β中，显著异于零的β数目占比不会超过5%（假定我们选择5%的显著性水平）。但实际占比为67.5%！！！即使用cluster考虑了每州每年内观测值间的各种相关性后，显著异于零的β总数目占比仍高达44%。更进一步地，把个体层面的数据加总到州层面、得到一个50（州）*21（年）的平衡面板数据后再跑回归，这个占比仍高达43.5%。显而易见，DID在政策本来不存在的情形下凭空估计出了显著的政策效果！

其次，作者还验证了，实际有政策效果时，但DID却认为没有效果，即犯了第二类错误。验证步骤如下：

第一步，与验证“本身没有政策、但DID却估计出了政策效果”的第一步相同。

第二步，与验证“本身没有政策、但DID却估计出了政策效果”的第二步相同。

第三步，对于policy*group取值为1的观测值（即随机抽取出的25个州在抽出年份那年及之后年份的所有观测值），将其周收入增加2%。

第四步，与验证“本身没有政策、但DID却估计出了政策效果”的第三步相同。

此时，现实中（即数据中）是存在政策效果的（政策使得周收入增加2%）。因此，我们预计，这样验证200次得到的200个β中，显著异于零的β数目占比应超过95%。但实际占比为85.5%，即使用cluster考虑了每州每年内观测值间的各种相关性后，显著异于零的β数目占比为74%，低于95%。更进一步地，把个体层面的数据加总到州层面、得到一个50（州）*21（年）的平衡面板数据后再跑回归，这个占比为72%，仍低于95%。犯第二类错误的概率始终很高。

鬼从何而来？

本身没有政策，但DID却估计出了政策效果，原因何在？文中指出，原因在于DID估计所使用的数据一般存在序列相关问题。序列相关导致估计量的标准误大大低估了估计量的标准差，从而导致t统计量的取值偏大，过度拒绝原假设。

DID估计中的序列相关问题一般有三个来源：第一，DID估计所用数据通常具有相当长的时间跨度。作者搜集了1990年至2000年间在AER、QJE、JPE、JLE、JPubE和Industrial and Labor Relations Review六本期刊上发表的所有用DID做的论文（共92篇），发现这些论文所用数据的时间跨度平均达16.5期，其中50%以上的论文所用数据的时间跨度超过11年。长时间跨度的数据一般都存在序列相关问题。第二，DID估计常用的因变量一般都具有高度的正向序列相关性，譬如就业率、工资、医疗支出和生育率等。最后，对一个横截面单元（cross-section unit）的所有样本而言，核心解释变量policy*group的取值很少随时间变化，具有很高的正向序列相关性。譬如，在上面两个验证中，policy*group在被抽中那年及之后的年份中，取值都为1，根本就未变。

对于“核心解释变量的高正向序列相关性性导致DID过度拒绝原假设”这一点，作者也做了验证。验证步骤如下：

第一步，从50个州中随机抽取出25个，将这25个州定义为处理组。定义变量group，当观测值属于这25个州时取值为1，否则为0。

第二步，从1979年至1999年间随机抽出十个年份。定义变量policy，对于处理组这十个年份里的观测值取值为1，否则取值为0。显然，policy现在不具备序列相关性。作者随机抽取了（至少）200次，每次生成一个新的policy变量。

第三步，用对数周收入对policy*group和受教育年限、年龄、年份固定效应和州固定效应做普通最小二乘法回归。policy*group的系数β就是政策效应。作者为每个policy做了这样一个回归，故共做了（至少）200个回归。

此时，政策仍是虚构的、现实中（即数据中）根本就没有这个政策。因此，我们预计，上面得到的200个β中，显著异于零的β数目占比不会超过5%（假定我们选择5%的显著性水平）。实际结果是，这个占比恰好是5%。注意，这个验证与第一个验证唯一的区别是，此验证中policy不具有序列相关性，而第一个验证中policy具有序列相关性。就是这个区别导致拒绝率（5% VS 67.5%）的天壤之别。

擒鬼术

文中提出了下述四种擒鬼术：

一是参数法。它是现今大多数学者采用的修正方法。该方法的主要思路是先设定误差项的自相关结构，再进行系数估计，并计算出估计系数的标准误。但这一修正方法实际上并未解决序列相关导致的显著性水平“虚高”的问题。即使对该方法做进一步的改进，如修正由于自相关系数估计值被低估和设定的自相关过程不正确产生的影响，可得到的结果仍不尽人意。

二是分块自助法。其主要特点是将属于同一个地区的观测值放在一起以保留数据中自相关结构的信息。当抽样的次数足够多时，即使地区内任意自相关性和异质性的存在，通过重复抽样得到的t统计量分布与t统计量的样本分布的差异也会越来越小。

三是时间序列信息忽略法。当政策对所有处理组而言均在同一时间发生和在不同时间发生时，该方法的具体操作方式稍有差异。

四是方差协方差矩阵法。正如在参数法中，正确设定误差项的自相关结构极为困难，但是在地区数量较多的情况下，可以利用观测值使用方差协方差矩阵法，以一种更加灵活的方式估计出自相关结构。具体又分为两种类型：

第一类是建立在较为严格的假定之上，即假设对于所有的地区而言，自相关结构都是一样的，同时并不存在横截面上的异质性。在满足上述假设和地区数量趋于无穷的前提下，该方法将会得到标准误的一致估计量。

另一类是对第一类方法的拓展。它并不再强调第一类方法提及的严格假设条件，而适用于地区内部任意相关形式存在的情况。当然，此时我们无法再得出方差协方差矩阵每一个元素的一致估计量，但我们可以使用一般化的White-like公式计算标准误。当地区数量趋于无穷时，通过方差协方差矩阵得到的标准误将是一致的。

综上所述，参数修正法不易找到合适的自相关结构，且修正结果较差；分块自助法和方差协方差矩阵法在面临地区数量急剧减少的情况下，修正效果均将大打折扣；而时间序列信息忽略法即使在小样本情况下，也能够较好地修正序列相关问题。上述有显著修正效果的方法实际上都是通过将聚类上升到更高一个层面解决了序列相关问题，进而得到真实的政策显著效果。

最后，希望大家的DID估计都不会让序列相关捣鬼！

Abstract

Most papers that employ Differences-in-Differences estimation (DD) use many years of data and focus on serially correlated outcomes but ignore that the resulting standard errors are inconsistent. To illustrate the severity of this issue, we randomly generate placebo laws in state-level data on female wages from the Current Population Survey. For each law, we use OLS to compute the DD estimate of its "effect" as well as the standard error of this estimate. These conventional DD standard errors severely understate the standard deviation of the estimators: we find an "effect" significant at the 5 percent level for up to 45 percent of the placebo interventions. We use Monte Carlo simulations to investigate how well existing methods help solve this problem. Econometric corrections that place a specific parametric form on the time-series process do not perform well. Bootstrap (taking into account the autocorrelation of the data) works well when the number of states is large enough. Two corrections based on asymptotic approximation of the variance-covariance matrix work well for moderate numbers of states and one correction that collapses the time series information into a "pre"- and "post"-period and explicitly takes into account the effective sample size works well even for small numbers of states.

本文为付明卫老师《经济学中的经验研究方法》课堂选读的论文。感谢付老师为推文写作提供的指导。

话题：