自我评估时的性别差异-香樟经济学术圈的财新博客-财新网

原文信息：

Exley C L, Kessler J B. The gender gap in self-promotion[J]. The Quarterly Journal of Economics, 2022, 137(3): 1345-1381.

引言

劳动力市场上的性别差异被广泛关注，至今仍是热点话题。已有研究主要考察性别在以下两个方面的差异：其一，传统的经济学变量，如教育水平、工作经验、男女性家庭分工等。其二，非传统的经济学变量，即心理特质、非认知能力等行为因素，比如男女性在风险厌恶、竞争倾向、自信程度等方面的差异。

本篇文章属于上述第二类研究，作者通过（实验室）实验发现：首先，在完成传统意义上男性更擅长的任务时，女性的自我评价往往低于男性，即使他们的真实表现是相同的；然后，更有趣的是，在告知被试者们真实表现后，女性的自我评价依然低于表现相同的男性。最后，作者们发现女性过低的自我评价并不是因为她们的评价标准天然更高（如研究并未发现女性在评价他人时和男性有显著差异），而是和任务本身的特征紧密相关，即该任务是否在传统意义上为男性所擅长：在传统意义上女性更擅长的工作中，表现相同的男性和女性在自我评价上并没有显著差异。

实验设计

TableⅠ展示了数据收集过程。本实验在MTurk和Prolific两个平台上共进行了5轮，包含7个实验版本，所有的3892名被试中每人只能参加一轮数据收集中的一个实验版本。为了保证数据可比性，新一轮数据收集之前都会重复一次之前已经完成的实验版本。为什么设计多个实验版本、进行多轮数据收集？一个很重要的原因是作者希望通过改变实验环境去探索稳健的性别差异存在的边界。此外，为了探索自我评价时性别差异开始存在的时间，作者还在青少年中重复了类似的实验（见TableⅠ最后一行）。

下面我们依次介绍实验的七个版本。

第一个版本The Self-Promotion Version大致按照如下流程进行。

实验分四个部分。第一部分，被试者们需要完成一个20道题目的数理测试。然后，被试者们需要回答“在刚刚的测试中，你认为自己答对了多少道题目”。在未告知被试者们真实表现时，询问他们对自己表现的预期，是文献中常用的度量自信程度的方法。

第二部分，被试者们需要回答五个自我评估问题（见下图）。第一道题要求主观描述自己在测试中的表现，不过这道题没有用在之后的分析中。第二道题要求被试者们从“糟糕”到“极好”的六档中选择一档，描述自己的表现。这个问题叫做performance bucket question。

后三道题都是给定一个描述，让被试者们选择对该描述的同意程度，0是非常不同意，100是非常同意。第三道题依然是针对被试在测试中的表现，称为performance question。第四、五道题稍做拓展，假设了一个与数理能力相关的工作，分别询问了被试对这份工作的申请意愿和信心程度，称为willingness to apply question和success question。

第三部分，实验者告知被试者们第一部分测试的真实表现，包括答对的题目数量，以及在100人中的排名（见下图）。在了解真实表现后，被试者们再次回答之前的五个自我评估问题。告知被试真实表现，相当于控制了文献中经常度量的自信程度。在被试者们完全了解真实表现之后，再去进行自我评估，是这篇文章和文献的一个不同之处。

第四部分，被试者们报告自己的人口统计学信息。

实验的报酬由2-3美元的基础被试费和奖励组成，奖励由以上四部分中随机抽中的一部分决定。第一部分，每答对一道题目奖励5美分；第二和第三部分，五个自我评估问题中的一个将会随机给到另一组称为“雇主”的实验对象，雇主仅根据这个问题的答案决定是否雇佣。若不雇佣，雇主拿到100美分，被试拿到25美分；若雇佣，被试拿到雇主的工资，在25-100美分之间，雇主拿到100美分减去工资再加上被试的产出，即5美分乘以答对题目的数量。第四部分，被试会回答“在0-100美分之间，你觉得自己第一部分的表现值得多少钱”，被试的回答即这一部分的奖励。

第二个版本The Self-Promotion(Risky) Version与第一个版本相比，唯一不同的是，若第二或第三部分被抽中来决定奖励，雇主有一定的概率知道被试的真实表现。被试者们知道这一点，所以在回答自我评估问题时会有所考量。作者认为这样的设计更符合现实劳动力市场。

第三个版本The Private Version与第一个版本相比，唯一不同的是不存在“雇主”。若第二或第三部分被抽中，奖励固定为25美分。这允许我们去分析，在没有雇佣激励的情境中自我评估是否存在性别差异；同时消除了一些在前两个版本中存在的混杂因素，比如风险厌恶、利他性中的性别差异。

第四个版本The Private(Social Norms) Version和第三个版本相比，唯一不同的是，在第二三部分自我评估问题中，多出了一条信息，提示在之前的实验中，和你表现相同的人的答案的平均值。这提供了自我评估问题典型且合理的答法，消除了如何回答自我评估问题上的性别差异。

第五个版本The Private(Immediately Informed) Version和第三个版本相比，唯一不同的是实验没有第二部分。被试在做完测验之后，立刻知道自己的真实表现，然后回答自我评估问题。这是为了消除第二部分回答对第三部分回答的锚定效应。

第六个版本The Private(Other-Evaluation) Version和第五个版本类似。唯一不同的在于被试者们做完测验之后，不再进行自我评价，而是对另一位被试的表现进行评价。被试者们并不知道，他们评价的被试和自己的真实表现相同。这允许我们去看一般的评价标准上是否存在性别差异。

第七个版本The Private(Verbal) Version和第三个版本The Private Version类似，不过这里测验的是语言能力。传统意义上来说，数理能力男性更擅长，而语言能力女性更擅长。

实验结果

我们先看第一部分真实表现和自信程度（即“在刚刚的测试中，你认为自己答对了多少道题目”的回答）的性别差异，下图绘制了它们的分布。

根据Panel A，女性的真实表现好于男性。男性和女性表现的均值和分布的差异都是统计意义上显著的。但根据Panel B和C，我们会发现，和男性相比，女性显著的认为自己回答正确的问题个数更少。根据Panel C，约60%的女性低估了自己的表现，约40%的男性高估了自己的表现。

下面我们来看自我评估上的性别差异。

TableⅡ展示了知道真实表现之前，自我评估的回归结果。TableⅢ展示了知道真实表现之后的回归结果。被解释变量为自我评估的四个问题的答案，控制了表现固定效应，来保证回归比较的是表现相同的男性和女性。

我们先看前两个实验版本。根据TableⅡ的Panel A和B，我们发现存在雇佣激励但尚未被告知自己的真实表现时，女性的自我评价显著低于表现相同的男性。以第一列的performance question为例，女性对“我在刚刚的测试中表现很好”这句话的同意程度，比相同表现的男性低12.68个点，约为该问题答案均值的24%。根据TableⅢ的Panel A和B，被告知自己的真实表现之后，女性的自我评价依然显著更低，但幅度变小。

我们再看第三到第五个实验版本。TableⅡ和Ⅲ的Panel C到G展示了回归结果。不存在雇佣激励时，无论是否被告知自己的真实表现，女性的自我评价依然显著低于表现相同的男性。Panel E说明即使在提示被试者们自我评价的合适回答之后，这样的差距依然存在。Panel G说明这样的差距并不是因为第二部分自我评估的锚定效应。

我们最后来看第六和第七个实验版本。TableⅡ和Ⅲ的Panel H到K展示了回归结果。Panel I 的前两列不再显著，后两列虽然显著但幅度远远缩小。这说明评价他人表现时，没有显著的性别差异。因此，本文发现的自我评估上的性别差异，并不能被一般的评价标准上的性别差异所解释。Panel K在两个表格中都不再显著，说明自我评估上的性别差异与所作的任务种类有关。当做传统意义上女性更擅长的工作时，自我评估上不存在性别差异。

讨论

本文随后进行了一系列讨论。

第一，稳健性检验。作者分别加入了其他人口统计学信息作为控制变量；删除了不合格的问卷样本；将回归模型从OLS更改为分位数回归或者probit回归等。结果表明自我评估上的性别差异是稳健存在的。

第二，异质性分析。作者发现在真实表现好的被试者中，自我评估上的性别差异更小；在认为自己答对题目数目较多的被试者中，性别差异也更小。年轻、教育水平更高以及更倾向共和党的被试者会给出更积极的自我评价，但是性别差距在更倾向共和党的被试者中更加明显。

第三，自我评估对雇佣和工资的影响。利用前两个版本的实验数据，作者发现自我评价更积极的人被雇佣的概率更高，收到的工资也更高。自我评价上的性别差异确实导致了雇佣和工资上的性别差异。

第四，自我评估上的性别差异是否被预期。作者招募了另外一群人，在给出男性和女性自我评价的均值后，让他们去预测男性和女性数理测验的平均表现。作者发现预测者对女性表现的预测显著差于男性，这样的预测结果与预测者是男性还是女性无关。这说明预测者在预期男性和女性的真实表现时，并没有考虑到自我评价上的性别差异。这方面的后续工作可以参考《The Gender Gap in Confidence: Expected but Not Accounted For》这篇文章。

第五，自我评估上的性别差异开始存在的时间。作者从初中和高中招募了共10637名被试，重复之前第三个版本的实验（即The Private Version）。在之前实验的基础上，修改了测试题目，并将自我评价问题中的工作情境更改为选课情境。作者发现自我评价上的性别差异在六年级学生中就已经存在，而这是被试中最年轻的一组。

结论

本研究发现：在进行传统意义上男性更擅长的工作时，女性的自我评价会显著地比表现相同的男性消极。不论是否有雇佣激励，抑或改变实验环境，该性别差异一直存在。但在进行传统意义上女性更擅长的工作时，自我评价上的性别差异并不存在。

本篇文章为后续研究奠定了良好基础：首先，本文要求被试进行自我评估，因此探究的是集约边际（intensive margin）差异。之后的研究可以进一步把沟通意愿和自我评价上的性别差异相结合，探究广延边际（extensive margin）差异。其次，以后的研究可以跳出实验室环境，基于真实的劳动力市场，探究自我评价在申请、面试、晋升等职业阶段的累积作用。最后，如何利用政策干预缓解自我评价中的差异，从而一定程度上改变劳动力市场上的性别差异也是有待研究的问题。

Abstract

We run a series of experiments, involving over 4,000 online participants and over 10,000 school-aged youth. When individuals are asked to subjectively describe their performance on a male-typed task relating to math and science, we find a large gender gap in self-evaluations. This gap arises both when self-evaluations are provided to potential employers, and thus measure self-promotion, and when self-evaluations are not driven by incentives to promote. The gender gap in self-evaluations proves persistent and arises as early as the sixth grade. No gender gap arises, however, if individuals are instead asked about their performance on a more female-typed task.

声明：推文仅代表文章原作者观点，以及推文作者的评论观点，并不代表香樟经济学术圈公众号平台的观点。

话题：