【经典回顾】运用断点回归设计做研究的规定动作 -香樟经济学术圈的财新博客-财新网

推文人 | 付明卫

原文信息：Lee, and Lemieux, 2010，" Regression Discontinuity Designs in Economics "，Journal of Economic Literature, Vol. 48: 281–355.

订阅了各种经济学类公号的筒子们，最近有没有断点回归（RD）设计满天飞的感觉？作为同道中人，我感觉，被推送的RDD论文数量，在今年六七月份明显存在一个断点：从那以后，开始井喷！看着这些推文，多少人心中默念：“论文发表不轻松，要把断点为我用！”

RD确实是个好方法。它等于是在断点附近的局部随机试验。这一点赖以成立的前提条件，并不难以满足。此外，跟随机试验中全域（global）随机性可以被检验一样，RDD等于局部随机试验的假设，也可以通过观察前定变量的分布是否平衡来检验。从这个意义上讲，RD方法比IV、DiD更接近于随机试验。随机试验是因果识别的终极杀招，越接近随机试验的方法当然越好！

众所周知，用IV做研究时，需要做工具变量有效性、弱工具变量等检验；用DiD做研究时，需要检验平行趋势假设。这是运用IV和DiD做研究的规定动作。那么，运用RD做研究有哪些规定动作？今天推送的这篇论文里都讲了。希望直接上手的筒子们，无需读《功夫计量》（《Mastering' Metrics》）和《最无害》（《Mostly Harmless Econometrics》）中的相关章节，也无需通过精读几篇五大上的论文来模仿啦。读完Lee和Lemieux（2010）一文，你就行！！

绝对不要质疑此文的权威性！！只有江湖大佬才有资格上JEL这个秀场！《最无害》中讲RD时做例子的那篇论文（ “Randomized Experiments from Non-random Selection in U.S. House Elections,” 2008, JoE)，就是Lee写的！另外一个作者Lemieux，和计量大神Imbens合写了篇论文“Regression Discontinuity Designs: A Guide to Practice”（JoE, 2008）。除了牛人，哪个guy敢在自己论文题目里用“Guide”？

此文74页（是一般英文论文的2倍长），内容十分丰富，包括RD方法的来龙去脉、理论背景、运用RD方法的经典论文、如何寻找断点等。东南大学马超老师曾推过此文章的两个部分，分别讲最优带宽选择（"The Closer you look, the less you'll see"，蓝鲸OLS实验室）和RD与IV、Heckit等方法的比较（“为什么说RDD比IV、Heckit、Matching更有魅力” ，蓝鲸OLS实验室）。本推文只讲用RD做研究的规定动作这一小部分（“4.6 A Recommended 'Checklist' for Implementation”），即只讲怎么做，不讲为什么。要知“为什么”，请读论文原文。

规定动作

第1步

检查配置变量（assignment variable，又叫running variable、forcing variable）是否被操纵。画出配置变量的分布图。最直接的方法，是使用一定数量的箱体（bin），画出配置变量的历史直方图（histogrm）。为了观察出分布的总体形状，箱体的宽度要尽量小。频数（frequencies）在箱体间的跳跃式变化，能就断点处的跳跃是否正常给我们一些启发。从这个角度来说，最好利用核密度估计做出一个光滑的函数曲线。McCrary（2008）为判断密度函数是否存在断点提供了一个正规的检验（命令是DCdensity，介绍见陈强编著的《高级计量经济学及Stata应用》（第二版）第569页）。

第2步

挑选出一定数目的箱体，求因变量在每个箱体内的均值，画出均值对箱体中间点的散点图。一定要画每个箱体平均值的图。如果直接画原始数据的散点图，那么噪音太大，看不出潜在函数的形状。不要画非参数估计的连续统，因为这个方法自然地倾向于给出存在断点的印象，尽管总体中本来不存在这样的断点。需要报告由交叉验证法（Cross-validation, CV）挑选的带宽。一般而言，为了看出潜在函数的形状，不要挑选过大的带宽。但是，带宽太小也会导致看不出潜在函数的形状。比较因变量均值在断点两边的两个箱体间的变化，可以预判处理效应的大小。如果图形中都看不出因变量在断点处有跳跃，那么回归方程也不可能得到显著的结果。

第3步

将Y在每个箱体内的均值作为因变量，用处理变量、配置变量的多次项作为自变量，在断点两边分别跑回归，得到因变量的拟合值。将这些拟合值画在第2步的图中，并用光滑的曲线连接起来。在推文人读过的RD论文中，多次项一般都使用1到4次项，但没有论文解释为什么只用到4次项。

第4步

检验前定变量在断点处是否跳跃。此步和第1步是RD方法的适用性检验。此步的检验包括两项内容：1. 像前三步那样画前定变量的图。无论参数还是非参数，RD研究都要大把的图！这些图在正式发表的论文中都必不可少！原文中说了这么句话：用RD做的论文，如果缺乏相关的图，十有八九是因为图显示的结果不好，作者故意不报告。2. 将前定变量作为因变量，将常数项、处理变量、配置变量多次项、处理变量和配置变量多次项的交互项作为自变量，跑回归。一个前定变量有一个回归，看所有回归中处理变量的系数估计是否都为0。检验这种跨方程的假设，需要用似不相关回归（Seemingly Unrelated Regression, SUR）（命令是sureg，用法见陈强编著的《高级计量经济学及Stata应用》（第二版）第471-474页）。在推文人读过的RD实证论文中（尤其是AER2015-2016年所有用RD做的论文中），均没用SUR，只是简单的看每个回归中处理变量的系数估计均为0。

第5步

检验结果对不同带宽、不同多项式次数的稳健性。尝试的其它带宽，一般是最优带宽的一半和两倍。挑选多项式的最优次数，可用赤池信息准则（Akaike's Information Criterion，AIC）。在我们尝试的包含配置变量1次方、2次方、……N次方的众多方程中，AIC取值最小的那个就是我们想要的。实操时，试到多少次为好？原文中至少试到了6次。我们做研究时需要试到10次还是100次呢？Gelman和Imbens（2014）解除了我们的这个烦恼，详见“江湖上的新动作”这一部分。

第6步

检验结果对加入前定变量的稳健性。如上所述，如果不能操控配置变量的假设成立，那么无论前定变量与因变量的相关性有多高，模型中加入前定变量都不应该影响处理效应的估计结果。如果加入前定变量导致处理效应的估计结果变化较大，那么配置变量可能存在排序现象，前定变量在断点处也很可能存在跳跃。实操时在确定多项式的次数后，直接在回归方程中加入前定变量。如果这导致处理效应估计值大幅变化或者导致标准误大幅增加，那么可能意味着函数中多项式的次数不正确。另外一个检验是残差化，看相同次数的多项式模型对残差的拟合好不好。

江湖上的新动作

Thistlethwaite和Campbell1960年首次用RD方法做政策评估。经过近40年的沉寂后， 20世纪90年代末以来，经济学关于RD方法的性质、局限性等方面的理论研究有了巨大进展。关于RD方法本身的研究，并没有因为Lee和Lemieux（2010）的发表而停止。我把Lee和Lemieux（2010）发表后的进展称作“新招式”。据我的不完全了解，“新招式”有这些：

1. 多项式次数的选择。根据Lee和Lemieux（2010），配置变量的次数要试到N次。但是，Gelman和Imbens（2014）的NBER工作论文说，试到N次的做法要不得，最多只能搞到2次。至于原因，他们讲了三条，感兴趣的请参考原文。尽管他们的论文还未正式发表，但学界都已乖乖听他们的啦。AER2015-2016年间所有用RD做的论文（共6篇）里，5篇都只用1次或2次。

2. 最优带宽。Lee和Lemieux（2010）介绍了两种确定最优带宽的方法：拇指规则法（rule of thumb）和交叉验证法（CV）。现在，江湖上有另外两种比较受关注的方法：IK法和CCT法。IK法以Imbens和Kalyanaraman两个人命名，对应着论文Imbens和Kalyanaraman（2012）。这篇论文发表在Review of Economic Studies，Lee和Lemieux（2010）文中提到过此文2009年的NBER工作论文版。CCT法以Calonico、Cattaneo和Titiunik三个人命名，对应着论文Calonico、Cattaneo和Titiunik（2014a）。用非参数法做断点回归估计时的stata命令rd，就是用IK发确定最优带宽。stata命令rdrobust、rdbwselect，提供CV、IK、CCT三种不同的最优带宽计算方法选项。然而，尽管Calonico、Cattaneo和Titiunik（2014a）2014年发表在牛刊Econometrica上，AER2015-2016年上的文章没有买它的账。AER2015-2016年的6篇相关文章中，仅有1篇提到过CCT，其他5篇就像不知道Calonico、Cattaneo和Titiunik（2014a）这篇文章。我甚为不解！难道是因为CCT非牛人？

3. 核密度检验。Lee和Lemieux（2010）介绍了McCrary（2008）的核密度检验方法。Frandsen (2013)提出了一种新的检验方法，感兴趣的请参考原文。

最后，祝福大家，“每当你睁开眼，关于断点的idea全部都实现”。

参考文献

a. AER 2015-2016年用RD做的6篇论文：

Card and Guiliano, 2016,AER, “Can Tracking Raise the Test Scores of high-ability students".

Deshpande, 2016,AER, “Does Welfare Inhibit Success: The Long-Term Effects of Removing Low-Income Youth from the Disability Rolls".

Feldman et al, 2016,AER, “Taxpayer Confusion: Evidence from the Child Tax Credit".

Schmieder et al, 2016,AER, “The Effect of Unemployment Benefits and Nonemployment Durations on Wages".

Dell, 2015, AER, “Trafficking Networks and the Mexican Drug War".

Hansen, 2015, AER, “Punishment and Deterrence: Evidence from Drunk Driving".

b. 关于RD新动作的论文：

Calonico, Sebastian, Matias D. Cattaneo, and Rocio Titiunik. 2014a: “Robust Nonparametric Confidence Intervals for Regression-Discontinuity Designs” , Econometrica, 82 (6): 2295–2326.

Calonico, Sebastian, Matias D. Cattaneo, and Rocio Titiunik.2014b: “RobustData-Driven Inference in the Regression-Discontinuity Design” , Stata Journal, 14(4): 909-946.

Calonico, Sebastian, Matias D. Cattaneo, and Rocio Titiunik.2014c: “Optimal data-driven regression discontinuity plots”. Working Paper, University of Michigan.

Frandsen, Brigham R. 2013: “Party Bias in Union Representation Elections: Testing for Manipulation in the Regression Discontinuity Design When the Running Variable is Discrete.” Unpublished.

Gelman, Andrew, and Guido Imbens. 2014: “Why High-order Polynomials Should not be Used in Regression Discontinuity Designs”, National Bureau of Economic Research Working Paper 20405.

Imbens, G. W., And K. Kalyanaraman, 2012: “Optimal Bandwidth Choice for the Regression Discontinuity Estimator”, Review of Economic Studies, 79(3):933–959.

Abstract

This paper provides an introduction and “user guide” to Regression Discontinuity (RD) designs for empirical researchers. It presents the basic theory behind the research design, details when RD is likely to be valid or invalid given economic incentives, explains why it is considered a “quasi-experimental” design, and summarizes different ways (with their advantages and disadvantages) of estimating RD designs and the limitations of interpreting these estimates. Concepts are discussed using examples drawn from the growing body of empirical research using RD.

话题：