政策评估、因果推断与机器学习-香樟经济学术圈的财新博客-财新网

原文信息：

Athey S, Imbens G. The State of Applied Econometrics - Causality and Policy Evaluation[J]. 2016.

1 引言

在 2015 年 7 月 18 日下午的“NBER 暑期讲习会”中，主讲人 Athey 和 Imbens 带来题为： Lectures on Machine Learning 的讲座。这次 NBER Session 吸引了超过250 名经济学教授参与。这当然是 Machine Learning 和这对充满吸引力的学术明星夫妻的共同作用。

2 摘要

本文主要关注政策效果评估（Policy Evaluation）实证分析方法的最新发展。讨论主要分为三个部分。第一部分是政策项目效果评估的识别策略，这些策略和方法包括合成控制法、断点回归、外部有效性和回归方法的因果关系解读；第二部分我们讨论了一些常见的因果识别策略（Identification Strategies）更加可信的补充分析（Supplementary Analyses），这些分析大致分为安慰剂分析、敏感性分析和稳健性分析（此推文不涉及，如有兴趣请阅读原文）；最后一部分谈谈机器学习在因果识别上的最新进展。这些进展主要包括在高维度数据中调整控制组和实验组差异的方法和估计处理效应异质性的方法。

本文主要回顾一些被称为“Reduced-form”或者“design-based”又或“causal”的计量方法。进行因果推断的黄金标准就是使用随机控制实验的方法（Randomized Controlled Experiment）。合理的随机控制实验能保证实验组和控制组在各个方面上都是相似相近的，那么，平均处理效应的计算将变得异常简单，我们只需要将控制组的平均结果减去处理组的平均结果即可获得平均处理效应。但是基于观测性数据和一些非随机分配政策事实的研究占了我们政策效果评估研究的大部分。希望从观测性数据集中推断得到因果效应是极具挑战性的。

为了能够使读者更容易理解基于观测性数据研究的困难所在，可由最低工资的例子来说明，假如在具有更高生活成本、消费者价格弹性大的国家，选择了更高的最低工资标准，这些国家的雇主可能通过提高物价把更高的工资成本转移给消费者来保持其业务量；相反，如果在生活成本低、消费者价格弹性大的国家选择了较低的最低工资标准。对较高的最低工资对就业影响的草率分析是将具有较高的最低工资的国家的平均就业水平与具有较低的最低工资的国家的平均就业水平直接相减。它不是对低工资国家提高最低工资时就业变化（反事实，无法观测到的潜在结果）的一个好的估计。但是，如果最低工资是随机分配的，那么，低最低工资国家和高最低工资国家之间的平均差异将有因果解释。

3 项目评估的新发展

我们可得：

3.1 发展之一：断点回归设计

3.2 发展之二：合成控制法和倍差法

倍差法已经成为实证分析中非常重要的工具之一，在基本的倍差法设计中，需要两个或两个以上的组别，其中至少包含一个控制组和一个处理组，同时我们观测到所有组别两期或两期以上的数据，其中必须包含政策冲击之前和冲击之后。处理组和控制组在政策冲击之前的相减是为了调整两组政策冲击之前就已经存在的差异。在简单的倍差法设计中，这些调整是线性的：两组在政策冲击之后的结果变量均值之差- 两组在政策冲击之前的结果变量均值之差。由于在实际应用中，双重差分模型却有着非常强的假设，即所谓的共同趋势（common trend）假设，具体指在没有政策处理干扰下，控制组和处理组的结果变量需具有平行的发展趋势。后来发展出了Synthetic Control Method 和非线性DID模型（即CIC，Changes-in-changes Model）。

3.2.1 Synthetic Control Method

3.2.2 CIC

见司继春老师在知乎专栏上的文章：

3.3 外部有效性

外部有效性几乎使得所有研究因果效应文章令人担忧。尽管在一个非常精心巧妙设计的、具有很高的内部有效性（internal validity ）的研究中，也难以保证研究结果中的因果效应能推广到全样本中。这种担忧通常在内部有效性被研究设计绝对保证的实验方法中被提及。从因果效应文献的传统上来看，内部有效性获得了更高的关注和重视，甚至有学者称，4如果没有了内部有效性，研究几乎寸步难行（Shadish et al.(2002), Imbens (2015)）。也有另一支学者Deaton(2010),Manski(2013)等认为应提高对外部有效性的重视。近年来已经有不少文献提出让研究者能够评估研究结果的外部有效性的方法了。一个典型的令人担忧其外部有效性的研究是，因为存在处理效应的异质性，文献中常常把用工具变量估计出来的处理效应解读为局部平均处理效应，或者那些受工具变量影响的个体组成的群体的平均处理效应。在这些研究中，关注点已经转向工具变量是否与整个样本群体相关（强外部性）还是仅仅与那些政策影响者组成的小群体相关（局部有效性）。

4 机器学习与计量经济学

近年来，计算机科学和统计学在数据分析的模型灵活性上取得了巨大的进步，而这个进步通常会归功于机器学习（Machine Learning）。尽管当前机器学习在经济学文献中应用还较为少见，但是近来已经获得了高度的关注。机器学习可以大概分为两大类，非监督式学习（Unsupervised Learning）和监督式学习（Supervised Learning）。非监督式学习主要关注寻找数据集里面的某种规律（Patterns），其中最常见的是聚类分析，通常应用在图像、视频聚类分析和相似文本集群识别中。

监督式学习与计量经济学的非参回归相比，一个显著的差别在于，机器学习似乎仅仅关注预测的效果（通过最小化test dataset 的均方差）而不在意估计量的渐进性质。这样一来，预测可能面临着偏误与方差权衡（bias-variance tradeoff）。为了减少预测的均方差，往往必须牺牲估计量的无偏性。因此，从机器的预测学习方法通常不是无偏的，并且估计值可能不是渐近正态的并且以真实值为中心。计量经济学方法(并非全部)和监督式学习之间的密切相关的区别在于，监督式学习依赖于数据驱动的模型选择，通常通过交叉验证来选择“调整”参数。

在监督式学习中，调整参数可能采取对模型复杂度惩罚的形式。一个典型的例子，监督式学习通常把样本数据分为两个数据集，一个训练数据集，一个测试数据集，比如把10%的观测值分到测试数据集中，再把训练样本集划分为多个子样本或交叉验证样本，即m = 1，...，M，通常M = 10。先把交叉验证样本m 搁置。利用训练样本的剩余部分进行估计。然后使用估计结果来预测剩下子样本m 的结果。将这些M 个子样本的残差平方和相加。仍然保持固定的样本划分，对于“调整”参数的不同值不断重复该过程。最终选取使得交叉检验样本的残差平方和最小的参数。尽管交叉检验的方法在计量经济学的Kernal Regression 中也经常用到，但是一般而言，计量经济学的交叉检验样本只有1 组。而在机器学习中，交叉检验的样本量要大得多（通常为10 组）且方法更加复杂。

当调整参数表示模型复杂性时，经过上述过程获得最佳参数之后，研究人员将在整个训练数据集中使用得到的模型和参数，以测试其模型优度。对模型的最终评价将由基于测试数据集（没有用于模型调试）计算得来的模型预测的均方误差（即，残差平方和）决定。

可以把交叉验证看做是一种调整模型以最好地实现其最终目标，即在一个新的独立测试数据集中的预测质量的方法。交叉验证可以被认为是优化模型复杂性以平衡估计量的偏误和方差。复杂模型将非常适合用于样本内估计模型（良好的样品内拟合），但却可能以在新样本上出现较大的拟合偏差为代价。例如，具有与观察值一样多的参数的线性回归可以完全在样本内拟合，但是由于所谓的“过度拟合”，在新样本上可能表现很差。

在机器学习中，基于良好预测为目标的模型获得了前所未有的发展，尽管很多模型的统计学性质是未知的，但却能在现实世界中起到良好的预测作用。

接下来，本文将回顾一些最流行、对因果推断最有帮助的监督式机器学习方法，并将他们与传统计量经济学中的文献联系起来。

4.1 监督式学习的常见预测方法

监督式机器学习最重要的方法之一是一类惩罚性回归模型，这类方法会基于模型复杂性对其进行惩罚，它喜欢相对简单能够更好的泛化的模型。其中最重要的一员就是最小绝对收缩与选择算子，即LASSO （Least Absolute Shrinkage and Selection Operator），此方法的实现过程与上述模型调试过程相似，估计原理与最小二乘法相似，特点在于基于线性回归参数数量给予额外的惩罚项。与其他监督式学习方法不同，有大量的文献研究LASSO 方法的渐进性质，这使得LASSO 对于经济学实证分析具有极大的吸引力。此外，作者还介绍了岭回归（Ridge Regression）、回归树（Regression trees）、随机森林（Random Forsets，在最近Glaeser等人(2016)的一篇文章中，通过比赛为城市政府提供了众包（crowd-sourcing）预测算法，其中的获胜算法就是随机森林。）和Boosting 等常见的机器学习方法。并将其性质与经济学实证研究联系起来，对该方法在经济学实证分析上可能的帮助进行评价。

4.2 机器学习估计平均处理效应

在观察性研究中，为了达到非混淆假设使得结果更加可信，在实践中，需要控制的pretreatment 变量可能数量众多。近来，有学者将机器学习方法应用在存在众多协变量的情研究中。传统做法中，研究者倾向于基于倾向得分进行加权、匹配，这些方法协变量数量固定情况下，能得到对平均处理效应的半参数有效估计。这些文章中的具体实现依赖于核估计或series estimation 的倾向得分，而这些估计在许多协变量的情况中是不可能实现的。为了应对数量众多的协变量，研究者提出了使用随机森林、Boosting 和LASSO 方法来估计倾向得分值，以此为权重进行下一步分析。在利用倾向得分匹配方法对平均处理效应估计中。

利用机器学习估计个体因果效应，Wager 和Athey (2015) 提出一种基于随机森林（Random Forest）的估计异质处理效应的方法。随机森林是最受欢迎的监督机器学习方法之一，以其可靠的“out-of-the-box）”性能而闻名，不需要大量的模型调整。不同于一般的随机森林关注于预测问题，他们的随机森林算法里每一构件树就是一条因果树（CausalTree）。对于每一因果树而言，首先识别出每一分区，而后根据每一分区里的元素（变量）估计处理效应。最后，由许多因果树构成的因果森林能将处理效应xx顺利地估计出来。这种方法与kernal regression、nearest-neighbor matching 很相近，对于x的每一个值都有一个明确的估计值。两位作者还证明由因果森林而得来的预测是渐进正态并且对于每一个x来说都是趋近于真实值的。相较于现有的计量经济学方法，随机森林被大多数学者认为在预测问题上表现的更佳，特别是当存在数目众多的协变量时。与随机森林相近的另一方法是基于Bayesian Additive Regression Trees (BART)。Hill （2011）、Green and Kern （2012）使用这种方法来估计异质处理效应。BART 本质上是贝叶斯版的随机森林。但是BART 的大样本估计性质仍然是未知的。

另一利用高维度预测的主流方法可能出现在工具变量中。众所周知，在工具变量方法中的第一步即是预测，利用其它外生变量和工具变量估计内生变量的条件期望，以此来分离出内生变量中干净的（外生的）部分。如果出现众多工具变量的，且其中部分工具变量与亚组别（subpopulation）的指示变量相关或由其他工具变量转换而来时，普通的工具变量方法会有很差的表现，Belloni 等(2013)将LASSO 方法应用工具变量第一阶段（预测），能达到良好的估计效果。

5 小结

这篇文章简单回顾了Reduced-form 范围内的因果关系和政策评估的方法进展。特别强调了使得识别策略更加可信的补充性分析（Supplementary Analyses）的重要性。最后，作者集中笔墨介绍了机器学习在因果推断分析中的应用，在基于观测性数据的研究中，需要控制大量的协变量以满足非混淆假设，或者希望能够较好的预测得到反事实状态，这时候机器学习会是让政策评估更加可信的一大利器。作者认为，机器学习的帮助在于帮助研究者避免使用不必要的函数形式、模型假设和增加政策分析研究的可信度。另外，除了监督式学习在预测能力上能给予计量经济学较大帮助外，非监督式机器学习在聚类分析中的优势可以帮助经济学家研究前所未有的新问题。简单来说，聚类分析就是就是在你提供的数据集里面7找到具有相似特征的东西归类并进行连接网络分析。作者认为聚类分析作为一种数据驱动（data-driven）的分析手段也许是实证分析的一重要中间环节，比如我们可以利用聚类方法识别大数据体现的不同人群的偏好结构，而不需要理论假设不同人群的偏好。这些都将我们开辟了一片新天地。

总之，机器学习作为且仅仅作为一种工具，其精于预测、聚类等分析的性质，使得经济学者能利用其提高研究能力，开辟新的研究领域。机器学习作为一个对我们有学习价值的学科，我们需要以开放的心态迎接它、了解它和利用它，但是不要因为使用工具而忘了经济学家们原本擅长的东西。

6 延伸阅读

1、How will machine learning impact economics?

redirected_qid=6706789

2、NBER Lectures on Machine Learning.

3、Summer Institute 2015 Methods Lectures, July 18, 2015,Susan Athey,Guido Imbens.

本推文的PDF 格式文档和原始LATEX 文件见：

Abstract

In this paper we discuss recent developments in econometrics that we view as important for empirical researchers working on policy evaluation questions. We focus on three main areas, where in each case we highlight recommendations for applied work. First, we discuss new research on identification strategies in program evaluation, with particular focus on synthetic control methods, regression discontinuity, external validity, and the causal interpretation of regression methods. Second, we discuss various forms of supplementary analyses to make the identification strategies more credible. These include placebo analyses as well as sensitivity and robustness analyses. Third, we discuss recent advances in machine learning methods for causal effects. These advances include methods to adjust for differences between treated and control units in high-dimensional settings, and methods for identifying and estimating heterogenous treatment effects.

推文作者简介

彭文威：暨南大学经济学院经济系2013级本科生，微信公众号：小花经济学术，Email:

话题：