经济学研究的可信性革命：统计相关or真实因果？-香樟经济学术圈的财新博客-财新网

推文作者：姚守宇，天津大学管理与经济学部博士 研究方向：金融工程（）

近年来经济学的经验研究正在经历一场由“统计推断”到“因果推断”的“研究范式”转变，越来越多的研究开始讨论如何可以科学地识别变量间的因果关系，而非集中于估计量的统计显著性问题。不同于经典的“统计推断”利用样本信息去对总体进行参数估计，进而依靠假设检验以判断估计结果统计显著性的研究思路，“因果推断”其关键特征是引入潜在结果框架去清晰定义因果关系，利用随机化实验的思想作为有效识别因果关系的基础。这种从“统计推断”到“因果推断”研究范式的转变被Angrist and Pischke (2010)称之为经济学经验研究的“可信性革命”（相比于利用传统“统计推断”得到的因果关系，“因果推断”对于因果关系的识别更加可信）。相比于传统的“统计推断”，由于其主要借助的是随机化的实验思想，因此新的研究范式有时也被称为计量经济学的“实验学派”(Angrist and Pischke, 2017)。虽然我已经很久没有读过经济学方面的文章了，但是受朋友圈里众多研究经济学问题朋友的熏陶，对于这场“研究范式”的转变我还略微了解一点点。正好趁着这个机会，我决定写篇文章，以统计推断与因果推断为主线，带大家了解以下三个问题：（1）统计相关关系与因果关系有何区别？（2）回归分析得到的一定是因果关系吗，其“因果关系”又一定是可靠的吗？（3）什么是基于随机实验思想的因果关系推断新风尚？通过对这些问题的回答，可以帮助大家理解什么是审稿人常说的“内生性问题”，为什么社会科学研究强调的一定是因果关系的识别，而非统计相关关系的判断。

1.统计相关关系与因果关系有何区别？

为了帮助大家更好的理解后面两个的问题，我先帮大家辨析一下相关关系和因果关系间的区别。相关关系和因果关系是一对十分相似的概念，但它们之间却又有着巨大的不同。总的来说，有相关关系却不一定有因果关系，但有因果关系就必定存在相关关系。相关关系指的是二者在变化趋势上存在着某种程度的一致性，而因果关系强调的则是一种“前和后”的关系，是因为某种变量的变化所以才导致了另外一个变量随之发生改变，其强调的是二者存在某种理论逻辑上的关联，需要去确定二者间具体的依存关系。例如，对于A导致B发生变化的因果关系的确立，其必须满足以下三个条件（1）A和B相关（2）A必须发生在B之前（3）所有其他的因素C都已经被排除。只有同时满足上诉三个条件，我们才可以说A和B之间确实存在着某种程度上的因果关系。

尽管在定义上我们可以把二者的区别说清楚，但是当面对具体问题时，区分相关关系和因果关系就没有看起来的那么简单了，一不小心也许我们就会掉入到“相关陷阱中”，那些看似“合情合理” 的例子，却真的不存在因果关系。为了方便大家理解，我给大家举几个例子。先来两个简单的，例如据研究发现每年溺水儿童和雪糕销量成明显的正相关的关系，但是二者间却不存在因果关系，是先溺水儿童数量的提升才导致的雪糕销量的提升吗？只不过是因为天气炎热罢了。例如，又有研究显示携带打火机与肺癌有相关关系，但是二者间却也没啥因果关系，并不是因为他带了打火机，就会导致发病几率的上升的，而使用打火机抽烟后，烟草中的有害物质导致了发病几率的上升。上面的两个例子也许你会说，看起来似乎没那么难以区别呀，那么好，我再举一个看似“合情合理”的例子。另外一项研究表明，阅读科学博客多的人，他的科学素养水平就越高，那么二者间具有因果关系吗？这是一个看似合乎情理的例子，所以许多人可能就会误认二者间存在因果关系。实际上二者间仅存在相关关系，并不是说存在着博客读的越多科学素养就会越高的因果关系。读博客和高科学素养这两件事情背后可能存在着一个共同的原因即受教育程度越高，受教育程度越高的人可能越愿意读博客，受教育程度越高的人科学素养可能就越高，所以读博客和科学素养间表面上看似存在因果关系，实际上则没有像上述定义中所说的那样去排除其他因素的影响。所以说，因果与相关，这两种情况是最容易被混淆的，一旦混淆，就会影响我们的判断，做出错误的决策，所以，搞懂因果和相关还是很有必要的。

2.回归分析得到的一定是因果关系吗，其“因果关系”又一定可靠吗？

我们都知道，社会科学研究强调的是因果关系的识别，而非相关关系的判断，我们希望借助于计量、统计等技术工具帮助我们对于因果关系进行有效的识别。然而，在没有任何理论假设的前提下，统计学是不可能帮助我们识别出因果关系的，借助于统计学等工具做出的回归分析结果仅仅代表了变量背后的相关关系，所谓的OLS只不过是一种系数估计方法罢了，因果关系的识别则需要理论和技术两方面的严谨论证。所以说，单纯的回归分析得到的参数估计结果充其量只能称之为二者间的相关关系而非真实的因果关系。想要对于因果关系进行有效识别，就要求我们再回归之前需要用经济理论去建立模型真正的分析两个变量间的内在逻辑关系，即使你没法建立数学上的理论模型也需要去用文献来推演出你想要研究的变量间到底存在何种内在逻辑，提出你的研究假设。所以说，只有先进行完上述理论分析后，我们带着目标去跑回归来验证我们的逻辑推演正确与否，这样我们再利用得到的回归结果去识别其因果关系才是有意义的。上面所说的这套思路就是我们传统意义上的“统计推断”，当我们进行完理论分析之后，我们可以借助于统计学模型，利用样本信息去对总体进行参数估计，进而依靠假设检验以判断估计结果统计显著性，进而去识别所谓的因果关系。

我们暂且不讨论，我们的理论推导过程是否正确、假设的推演是否真实可信，就算我们上述过程没有任何问题，那么我们进行完理论分析后做回归进行的“因果关系”识别，其结果又一定是真实可靠的吗？答案，仍然是否定的。经典的计量经济学为保证参数估计量具有良好的性质，在进行回归之前通常会对模型提出若干假设，其中前几个假设就是大家所熟知的高斯-马尔可夫假设（CLRM）。当然了，在实际研究中上述理论假设条件无法全部满足，因而又衍生出“单方程计量经济学放宽基本假设的模型”，其主要讨论了异方差、序列相关、多重共线性等问题。上述三个问题其实并不会影响因果关系的识别，我们只需要利用White (1980) 的异方差一致性标准误差或Newey and West (1987)的序列相关及异方差一致性标准误差进行修正即可。了解计量理论的朋友这时可能已经发现我故意少说了四大问题中的一个问题。是的，我故意少说了内生性问题（也即随机解释变量问题）。谈到因果关系的有效识别，就绕不开内生性问题，内生性问题时我们处理起来最为棘手的问题，但也却是审稿人最为喜欢问的热门问题。上面的异方差、序列相关以及多重共线性问题，我们可以通过一些技术手段处理掉，但是对于内生性问题的处理却是相当的棘手，一旦内生性问题没有办法得到很好的控制，那么我们的参数估计结果将会有偏且非一致，那么利用这种有偏的回归结果做出的因果关系推断我们还敢相信吗？所以说，人们完全有理由去质疑利用存在内生性问题的回归结果做出的因果关系的识别。

这时有朋友可能就会有疑问了，天天听你们扯内生性问题，到底啥是个内生性问题么？内生性问题，其实就是计量经济学上的随机解释变量问题，要想把这个问题解释明白还是需要从经典计量经济学对于模型做出的假设谈起。我们先来看其中一个经典假设：“解释变量是确定性变量而非随机性变量”。那么什么是确定性变量，什么又是随机性变量呢？我们一般把外生变量称之为确定性变量，其外生于整个模型系统，与你整个模型系统无关，所以不论你整个模型系统如何发生改变，它都是不受影响，不发生改变的，因而它相对于你整个模型系统而言具有一定的确定性。我们一般又把具有某种概率分布的内生变量称之为随机变量，内生变量内生于整个模型系统，其既受模型系统的影响同时也对整个模型系统有影响，所以其不能满足上述确定性，因而存在着某种程度上的随机性，所以我们把内生变量一般称之为随机变量。再讲清楚内生变量与外生变量即随机变量与确定性变量间的关系后。这时我们需要再继续阐述另外一个关于计量模型的经典假设，即“解释变量与回归方程随机干扰项无关”。一般而言，外生变量是确定性变量，其外生于整个模型系统，所以其自然与你回归模型的残差不会相关。而内生变量内生于你整个系统，其是随机性变量，既受模型系统的影响又会影响你的模型系统，所以其必定可能会与回归方程的残差项相关（残差可以代表很多因素，其中就包括整个模型系统无法量化的那些变量因素）。我们把这种内生性变量或者说随机性变量与回归方程残差相关的问题，称之为内生性问题或者说随机解释变量问题。一般而言产生内生性问题的原因主要有三种：遗漏解释变量、解释变量测量误差、双向因果关系（关于背后的原因，感兴趣的朋友可以自行百度，这里由于篇幅原因就不再过多赘述了）。正如上述所说，内生性问题会使得参数估计结果有偏且非一致，进而导致因果关系的识别结果并不可靠，所以我们一般常常会使用工具变量法（IV）去解决上述问题（工具变量与解释变量相关，与随机干扰项无关），当可以找到多个相互独立的工具变量时，这时就可以使用人们常说的GMM广义矩估计方法。

讲了这么多，小结一下，回归分析得到的不一定是因果关系，只有先进行完理论分析后，带着目标去跑回归我们才有可能去有效识别因果关系。另外，即使做完理论分析后得到的回归结果，其因果关系的识别也有可能受到内生性问题的影响，其因果关系的识别结果并不一定牢靠。

3.经济学研究的可信性革命—什么是基于随机实验思想的因果关系推断新风尚？

上述讲了那么多关于因果识别的问题，其主要还是思路就是我们传统意义上的“统计推断”，即当我们进行完理论分析（或者假设推演）之后，我们可以借助于统计学模型，利用样本信息去对总体进行参数估计，进而依靠假设检验以判断估计结果统计显著性，进而去识别所谓的因果关系。但是，我们我们进行的理论分析或者推演的假设一定就是正确的吗？在没有拿到充分证据前，大家都不免有些心虚。好了，姑且不讨论理论推导的正确与否性，我们利用回归结果进行的因果关系识别也很有可能受到所谓的内生性问题的影响，因此其因果关系识别结果可能并不牢靠。是否存在一些更新的方法可以更好的进行因果关系识别吗？正如本文开篇处所讲，近年来经济学的经验研究正在经历一场由“统计推断”到“因果推断”的“研究范式”转变，越来越多的研究开始讨论如何可以科学的识别变量间的因果关系，而非集中于估计量的统计显著性问题。不同于经典的“统计推断”利用样本信息去对总体进行参数估计，进而依靠假设检验以判断估计结果统计显著性的研究思路，“因果推断”其关键特征是引入潜在结果框架去清晰定义因果关系，利用随机化实验的思想作为有效识别因果关系的基础。这种从“统计推断”到“因果推断”研究范式的转变被Angrist and Pischke (2010)称之为经济学经验研究的“可信性革命”（相比于利用传统“统计推断”得到的因果关系，“因果推断”对于因果关系的识别更加可信）。相比于传统的“统计推断”，由于其主要借助的是随机化的实验思想，因此新的研究范式有时也被称为计量经济学的“实验学派”(Angrist and Pischke, 2017)。

相比于传统的“统计推断”，“因果推断”的思想主要是基于反事实理论框架。那么什么是反事实理论框架呢？反事实理论框架就是和我们能够观测到的现实情况相反的一种状态（Rubin 1980），变量 X 与变量 Y 因果关系可以表达为，当 X 成立时 Y 的结果与 X 不成立时 Y 的反事实结果之间的差异，如果这种差异存在且在统计上显著，则称变量 X 对变量 Y 是有因果关系的，否则二者之间就不存在因果关系。在利用反事实理论框架去清晰定义因果关系后，“因果推断”将利用随机化实验的对照思想去进行因果关系的识别。我们首先定义一个“处理效应”（treatment effect)的二元变量，Di={0,1},当Di等于1时，代表个体i接受了处理，当Di等于0时代表个体i没有接受处理。同时我们也可以定义一个潜在结果变量Y，Y0i 表示个体 i 没有接受 treatment 的结果变量，Y1i 表示个体 i 接受了treatment 的结果变量。那么基于反事实理论框架，这个treatment 的因果效应（causal effect）就可以通过简单差分得到：casual effect=Y1i - Y0i 。

然而对于社会学研究，在现实生活中中我们是不可能同时在同一个个体 i 上观测到两个潜在结果值的，例如，就像我们无法同时观测到一个人上大学与不上学所带来的收入差距。一件事发生了，就无法知道他不发生时的 “反事实情况”，这种现象被称为“反事实的不可观测性”，是因果推论中的基本问题（Holland 1986）。我们所能观测到的是一组接受了 treatment 的 i 和一组没有接受 treatment 的 i，所以说为了更加精确的识别因果关系，克服选择偏差问题，我们只能在实验组和对照组的选取上下功夫了，不得不通过特殊手段精心挑选出一个 control group 来跟 treatment group 进行比较从而识别 Causal Effect。这些巧妙的“因果推断”手段大概有以下几种：Natural Experiment, Field Experiement, Lab Experiment，倾向值匹配（PSM）、双重差分（DID）、断点回归（RD）。这些方法在近两年的经济学顶级期刊上占据了半壁江山，掀起来一股“因果关系”识别的新风尚，由于篇幅原因就不在一一介绍上述方法了，感兴趣的朋友可以学习Angrist and Pischke 2009年的教材“Mostly Harmless Econometrics”，其对于上述方法均有着详尽的介绍。

写到这里我们还是应该回归一些主题，社会科学研究强调的一定是因果关系的识别，而非统计相关关系的判断，不论是经典的“统计推断”还是现在热门的“因果推断”只要实证设计的好其都可以发挥巨大的作用，关键是我们要搞清楚问题背后的症结所在，理解清楚问题的本质，希望今天写的这些东西，可以帮助大家对于因果关系的识别有着一种更加清晰的认识。当然了，我已经很久没有读过经济学方面的东西了，上面所讲的内容也都是我自己的一些体会，可能也有着一些不当的地方，还是希望能和大家多多交流学习。

话题：