科学还是玄学：为什么他们的结果你复现不出来？-香樟经济学术圈的财新博客-财新网

推文作者：胡志韧，香港中文大学（深圳）经管学院助理研究员，邮箱：。

原文：Breznau N, et al. Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty. Proceedings of the National Academy of Sciences, 2022.

引言

社会科学家们可以在一些争议性的问题上达成共识吗？看起来很难，一千个读者就有一千个哈姆雷特，对于社会科学家们来说也是如此。即使是“最低工资是否会减少就业”这种劳动经济学中的最经典问题，也有一大堆经济学家，几十年来争执不休，诞生了若干篇“Top期刊论文”。当然，在最低工资这类问题上，由于研究区域不同、制度背景不同、数据不同等差异，经济学家基于经验分析得到的结果不同很正常。然而，如果我们给社会科学学者们同一套数据，让他们去分析同一个问题，他们可以达成共识吗？乍看起来，我们会觉得当然可以。然而事实并非看起来这么简单，德国不来梅大学等机构的一些学者便进行了这样一个实验，给出了一个有趣的回答。

在这个实验中，研究者们和来自73个研究团队的161位社会科学研究者进行了合作，给了他们一个相同的公开数据集，让他们对同一个假设进行检验：更多的移民减少了对社会政策的支持程度。然而，令人惊讶的是，即便是基于同样的数据集研究同一个假设，这些学者们仍然得到了五花八门的结果。

研究设计

研究设计者协调了来自73个团队的161位社会科学研究者来开展这项实验。这些研究者需要研究的核心假设是：更多的移民减少了对社会政策的支持程度。这个问题是社会学、政治学、经济学、地理学等社会科学中的一个经典问题。研究设计者通过学术网络、社交媒体和官方网站等渠道进行了招募，最终有161位研究者完成了实验。这些学者具有多样化的背景：46%具有社会学的背景，25%具有政治科学背景，剩余的具有经济学、传播学等背景。其中，83%的学者具有教授数据分析类课程的经验，70%曾经发表过至少一篇定量研究的论文或著作。在正式参加实验前，所有参与者完成了预调查，来调查他们的能力与信念等。

本研究的设计者向所有的参与者提供了一个公开数据集：ISSP数据集。ISSP是一项大规模的跨国综合社会调查，其中包括了一个调查对社会政策态度的模块。同时，研究设计者向所有参与者提供了各个国家的一些年度经济和人口数据，包括了移民的存量和流量状况。这些数据都来自于世界银行、OECD、联合国等公开渠道。

在正式开始研究前，参与者被要求先重复Brady 和Finnigan之前的一项研究结果，以确保他们对数据的熟练度。接下来，研究者需要开展自己的独立研究，他们需要运行他们各自的模型，并且报告解释变量对被解释变量的标准化效应估计值（用SD表示）。为了确保研究的有效性，在研究过程中，参与者被允许根据自己的先验经验，自行使用已提供数据集之外的数据。在研究过程中，2个团队由于各种原因没有完成研究，最终71个团队提交了研究结果。

研究结果

（1）一种数据，三种结果

参与者可以提交的模型数量没有限制，但由于ISSP数据集中有六个主要指标，移民有存量和流量的区别，因此大多数研究团队提交了12个模型与模型结果，所有研究团队提交了1253个模型。它们的分布如下图所示。可以看到，57.7%的系数和0没有显著差异，16.9%显著为正，25.4%显著为负。

每个团队被要求就假设（更多移民导致更低的社会政策支持度）给出自己的最终结论。71个给出结论的团队中，有16个团队认为存量和流量衡量的移民应该被视为独立的检验，因此一共有87个最终结论。其中，12个结论（13.5%）认为原假设无法被检验，54个结论（60.7%）认为原假设应该被拒绝，23个结论（28.5%）则支持原假设成立。

（2）结论的差异性来自哪里？

基于同样的基础公开数据，不同的研究团队却得到了不同甚至完全相反的结论，为什么？一个非常自然的猜测是，一些因素如模型设定等方面的差异影响了这一结果。于是，研究设计者们遍历了所有参与者提供的模型，根据变量的测度方式、模型设定、自变量的选择和分样本的情况，将1261个模型分为166个不同的“研究决策”。接着，研究设计者尝试用预设条件（提供的材料和分析前的工作）、研究决策、研究者特征（方法熟练度、话题熟练度、态度、信念）来解释不同结果的差异性。结果发现，这些因素只能解释极少的一部分差异。

（3）研究者的特征对研究结果有影响吗？

对同一个问题研究结果的差异常常来源于研究者的主观操控（例如p hacking）或者研究者的客观能力和经验限制。在本研究中，研究设计者在激励方面等进行了一些设置（例如明确给所有研究者共同贡献），以排除了第一种情况；接下来，研究设计者又分析了研究者的客观能力和经验（方法熟练度、话题熟练度、态度、信念）对于研究者所得结果的影响。结果表明，研究者的这些个人特征，和他们得到的研究结果并不具有统计上的显著关系。这一结果表明，研究人员研究结果中很多的差异来自于一些不可观测和不可解释的因素，这一部分因素也构成了科学研究中不确定性的一个重要来源。

结论

本文的结果表明，在刻意扭曲（例如为了得到自己想要的结果而扭曲结果）和能力约束（对于研究方法的认知不足和研究经验的缺乏）之外，科学研究的可靠性问题还存在着一些更深层次的根源性原因。在本研究中，不存在研究者利益相关，本文的研究也尝试讨论了一些可能的影响因素，但绝大部分的结果异质性仍然无法得到很好的解释。即使在严格遵守科学方法、保持高道德标准和最大程度保证可重复性原则的情况下，不同研究者的研究成果也可能存在很大的差异，这反映了科学分析过程中固有的复杂性和模糊性。

在过去的研究中，“可重复性”常常被作为科学性判断的重要准则之一，但本文的结果也表明，结果的可重复性是科学性的必要条件，而非充分条件，即使结果是可重复的，但在微小的扰动和差异下，也可能导致完全不一样的结果。因此，作为研究人员，不仅有责任准确描述和解释世界的本来面目，也有责任传达与个人研究内容相关的不确定性。在这种背景下，任何学术研究（尤其是社会科学研究）的结果应该保证充分的谦虚态度，谨慎解释自己的结果。

Abstract

Findings from 162 researchers in 73 teams testing the same hypothesis with the same data reveal a universe of unique analytical possibilities leading to a broad range of results and conclusions. Surprisingly, the outcome variance mostly cannot be explained by variations in researchers' modeling decisions or prior beliefs. Each of the 1,261 test models submitted by the teams was ultimately a unique combination of data-analytical steps. Because the noise generated in this crowdsourced research mostly cannot be explained using myriad meta-analytic methods, we conclude that idiosyncratic researcher variability is a threat to the reliability of scientific findings. This highlights the complexity and ambiguity inherent in the scientific data analysis process that needs to be taken into account in future efforts to assess and improve the credibility of scientific work.

声明：推文仅代表文章原作者观点，以及推文作者的评论观点，并不代表香樟经济学术圈公众号平台的观点。

话题：