中国学者AER最新力作：隐秘的评定人与高绩效-香樟经济学术圈的财新博客-财新网

图片来源：必应

原文信息：

de Janvry, Alain, Guojun He, Elisabeth Sadoulet, Shaoda Wang, and Qiong Zhang. 2023. "Subjective Performance Evaluation, Influence Activities, and Bureaucratic Work Behavior: Evidence from China." American Economic Review, 113 (3): 766-99.

导读：加州大学伯克利分校Alain de Janvry教授、香港大学何国俊副教授、加州大学伯克利分校Elisabeth Sadoulet教授、芝加哥大学王绍达助理教授与中国人民大学张琼副教授的合作论文登上了AER。文章基于在中国两省开展的大规模随机实验，探讨了主观评定带来的激励扭曲问题。这篇文章的结论可能对我国体制运行具有重要的政策意义。

引言

在很多情形中，能够准确衡量下属表现的客观绩效难以获得，上司/领导的主观评定就变得举足轻重。然而，这可能导致一个严重的问题，就是在这一主观评定机制下，下属可能发现反正好好工作也是为了让你夸我然后拿个好评价，那我直接用其他手段把你哄好了不是更直接，何必苦了自己？于是直接把本应为整个组织或部门认真努力工作的精力拿去取悦上司/领导（干他交办的活或者搞好私人人际关系），进而形成严重的激励扭曲。

很多文献都有论述过这种主观评定中的激励扭曲现象，但大多都是理论文章或基于少数个体的案例研究，还缺乏基于大样本的精确经验证据。作者借助当前一个村镇基层服务项目的政策背景，试图弥补这一空白。在这个村镇基层服务项目中，国家每年选派三万名大学生下到村镇一级的基层做公共雇员（大学毕业生公共雇员，CGCS，下同），从事包括医生、教师等各式各样的职业。通过两年考察期，CGCS中的“能”者继续留在体制内。而对于这个“能”的判断，就取决于CGCS的领导们了。中国是典型的“双领导”体系，每层机构都有两个领导者，一个是“党领导”，即我们平常说的书记（例如县委书记等），另一个是“行政领导”（例如县长等），在高层级机构中，前者具有更大的话语权，但到了村镇一级，二者差别其实不大，工作也基本重合了。放在本文研究中，言下之意就是两个领导都有机会决定CGCS的留任，但一般由两位中的一位负责评估与最终决定（其实只选一个领导来做评估也有政府的苦衷，如果两个人一起评估但是有分歧，很麻烦的）。

当前的制度背景下，CGCS到任就知道谁负责自己的最终评估，也就是上文所说的会引起激励扭曲的那种情况。为了探寻解决方案，作者与多地政府合作，进行了一个较大规模的RCT。与既定制度有别，在处理组中，CGCS并不知道谁负责自己的最终评定，作者想看看这层“面纱”会不会为组织带来更高的产出。

除了能为“主观评定下的激励扭曲”这一支文献提供经验证据外，本文还有两点贡献。首先，当前在探讨对发展中国家公共雇员的激励时，往往围绕金钱激励，本文则着重考察职业晋升激励；其次，对中国公共雇员的相关研究多停留在省市及以上的高级官员层面，而忽视了作为基石的、大体量的基层工作人员，本文拓展了官员研究的边际。

实验设计

作者团队与中国的两个省政府合作，以788个乡镇中3785个CGCS为研究对象。其中，所选两个省分别为沿海较为富裕的A省以及内陆欠发达的B省。CGCS被分为两个组别，2/3的CGCS被分到revealed组（暴露组，下同），1/3的CGCS被分到Masked组（遮盖组，下同）。其中，暴露组就是模拟了当前体制下的运行模式，即CGCS知道负责自己绩效评定的人是二者中的哪位。暴露组与当前实际操作模式唯一不同的是，两位领导到底谁负责最终绩效评定是由作者团队随机分配并事前告知给CGCS的，而非如当前一样是由组织内部内生决定的绩效评定人，这在很大程度上避免了选取评定者过程中的内生性问题。而遮盖组同样是由团队随机分配一位评定人，但一开始并不告诉CGCS是谁。换句话说，在遮盖组的CGCS来看，每位领导有50%的可能负责自己的最终评定。

本文最重要的Y，工作绩效，作者用CGCS办公室内其他同事对CGCS的评定结果均值来判断的。这个指标合理吗？首先，身边的人往往是最了解CGCS的人，每天的工作让他们能够对CGCS做出更令人信服的评价；其次，CGCS的同事们都已经工作多年，而非CGCS那样的待考核临时工或新入职员工，相互间并没有任何本质上的利害冲突；最后，CGCS没有足够的动机去左右同事们对她的评价，因为她们已经被事先告知只有领导才会负责她们的最终评定。

当然，稳健性检验部分作者还将Y的衡量替换为①负责评估的与不负责评估的领导给出的绩效评价；②CGCS的月度奖金，其实作者曾尝试用CGCS的工资来进行衡量，但是决定工资的因素太多了，绩效属性被污染，但奖金却实打实地与绩效挂钩。

理论模型与假设

作者给出了一个简洁精炼的理论框架。假设对于CGCS而言，有两个领导，而CGCS可以将自己的精力分配到三个地方，包括两个领导都可以看得见的、对组织整体产生积极影响的有目共赏的生产经营性活动X，仅仅可以被领导j观测到的生产经营性活动（干该领导交办的活）xj，以及逢迎领导j的非生产经营性活动（搞好私人人际关系）uj。有益于组织的P只有生产经营性活动有关：

而对于领导j而言，打分则综合考虑了大家都可见的CGCS生产经营性活动X，领导j自己眼皮下CGCS的辛勤劳作xj，以及CGCS对他的逢迎行为uj：

其中α是有目共赏的生产经营性活动与只跟领导j有关的活动之间的转换系数。

则CGCS的效应最大化问题如下：

其中s代表从CGCS视角出发，领导j负责其最终绩效评定的概率；G、g、h分别代表各种活动的成本函数，严格凹；T为CGCS的时间约束。对于暴露组的CGCS而言，sj其实就是0、1变量；对于遮盖组而言，sj等于1/2。

作者对上述模型进行了仔细的讨论，有兴趣的读者可以去看文章的附录C。文章提出的两个主要假说如下：

（1）在暴露组中，负责评估的领导会比不负责评估的领导给出更高的评价。这是因为CGCS会采取特定措施来抬高负责评估的领导对自己的评价。

（2）相较于暴露组，遮盖组中CGCS将为组织共同的利益做出更多的努力，达成更高的绩效。这是由于在遮盖组中，针对于特定领导付出努力仅能获得相较于暴露组一半的期望效用，但从事有目共赏的生产经营性活动带来的效用回报未变，后者显然更划算。当然，随之而来的是评估者由于身份隐藏而带来的利益损失，以及非评估者对CGCS更高的评价。

实证模型与基准结果

（1）关于命题一的检验，即在暴露组中，告知CGCS她的评定人是谁，是否会使得这位评估人相较于非评定人，对CGCS有着更高的评价？作者用暴露组的样本进行验证：

首先，作者随机指定两位领导为“领导1”与“领导2”，Sup1_Edgeicst表示第一位领导对CGCS的评价分数减去第二位领导对CGCS的评价分数。Sup1_Evali是一个虚拟变量，如果是1则表示CGCS是由领导1进行最终评价的。同时，模型还包含了区县固定效应、CGCS类别固定效应以及队列固定效应。标准误聚类在工作单位层面。由于评定人的分配是随机的，因此系数α代表了相对于非评定人，评定人身份会给CGCS多带来多少评分，即评定人身份的评分溢出效应是多大的。回归结果如Table2所示：

上表中，列（1）就是刚才提到的基准设定，以暴露组为样本，可以发现如果CGCS提前知道了评定人身份，会使得评定人给出相较于非评定人更好的评价。既然我们说，这一切的基础都是CGCS提前知道了评定人是谁，那么遮盖组中这种正面效应是否就消失了呢？列（2）告诉我们，是的。列（3）与列（4）是把基准回归中的Y换成了一个虚拟变量，即领导1的评价是否严格好于领导2，结果依然稳健。

（2）来到命题2，在遮盖组中的CGCS是否会专心干活，尤其是干两个领导都看得见的活，进而提升绩效呢？

作者用全样本来检验这一命题。因变量是CGCS的工作绩效，衡量方式我们之前提到过；关键自变量是一个虚拟变量，判断CGCS是否处于遮盖组。固定效应与标准误聚类参考上述模型。由于CGCS处于哪个组别是随机分配的，因此α就表示实验开始时不告诉CGCS评定人是谁，对她的绩效有如何影响。

回归结果如Table3所示。PanelA汇报了以同事评价为绩效衡量方式的四列回归。列（1）至列（4）代表4个问题：你给CGCS打几分（1-7分）、她是前百分之十的优秀员工吗、她很努力吗、你建议她两年以后继续留任吗。回归结果均显著为正，证明将评定人身份“藏起来”确实有助于CGCS高效工作。

PanelB考察领导对CGCS的绩效评定是否因暴露组和遮盖组而异。列（1）中，Y代表两位领导对CGCS的平均评价，而遮盖处理显著提升了这种平均评价。列（2）和列（3）则说明列（1）中平均评价的增加来源于非评定领导的评价改善，这与之前讨论是一致的，即在遮盖组中，CGCS在两位领导都有目共赏的的生产经营活动中付出更多，但对于评定领导的单独付出却减少了。正如列（4）所示，在遮盖组中，领导之间的评价差异减小了。

当然，之前所做的一切探讨都建立在评定人评价会显著影响CGCS继续留任这一基本假设下，所以这里作者又想证明这一假设。Table4中列（1）至列（3）分别在全样本、暴露组、遮盖组中进行验证，发现始终是评定人的评价意见才会左右CGCS之后的留任，而非评定人的评价没有统计意义上的影响。既然非评估人根本影响不了CGCS的留任，那么理论上来讲遮盖处理同样不会存在显著影响，列（4）正好说明如此。作者通过四列回归证明了我们前文的基本前提假设。

机制

（1）生产活动与非生产活动

首先是生产活动。Table5列（1）、列（3）与列（5）分别是以所做任务中领导1任务的占比、最重要任务都是领导1指派的虚拟变量以及在领导1认为重要的领域有更大提升的虚拟变量为被解释变量，在暴露组样本做的探讨，证明了评定人身份的揭露确实会让CGCS的生产活动出现侧重，而这种侧重在遮盖组中是没有的。

其次是非生产活动。这个指标太难衡量，作者只能尽力地、通过间接指标旁敲侧击地进行探讨，事实上作者做得十分严谨。Table6列（1）是问CGCS，“你们在工作中遇到的最大困难是什么？”，遮盖处理使得CGCS面临的最大困难更不可能来自于领导；列（2）和列（1）是一个问题，但列（2）困难来源是同事，结果表明遮盖处理并没有影响，证明了上文关于同事的探讨，即CGCS与同事在不同组别间不存在异质性相互影响。列（3）与列（4）因变量的问题分别是“你是否认为现有体制是任人唯贤”和“努力是否有回报”，遮盖处理坚定了CGCS对于二者的积极信念。

（2）身份认同

身份认同尤其是家乡认同始终是一个热门研究领域。在Table7 PanelA中，作者想探讨两个问题：首先，CGCS与领导来自同一个地方会对评价结果产生影响吗？其次，家乡认同对于评价结果的影响来源是什么，因为家乡认同包括“自上而下”的、领导对CGCS的认同以及“自下而上”的、CGCS对领导的认同，那么哪个因素会成为家乡认同存在的关键？列（1）的结果回答了第一个问题，即家乡认同确实会影响评价结果。进一步地，列（1）、列（2）与列（3）的结果联合回答了第二个问题。因为在遮盖组，由于CGCS缺乏对于领导的信息，因此“自下而上”的渠道被切断了，而遮盖组中同乡变量不显著，说明相较于“自上而下”，CGCS对于领导的身份认同才是评价结果的影响关键。

PanelB、C、D分别考察评定人是否为党领导（相较于行政领导）以及性别认同和校友认同，均不显著。这与传统观点一致，故乡纽带是最根本的、最重要的。

（3）遮盖机制的无效性

在遮盖组，领导们一开始并不知道自己是否负责CGCS的最终评定，但是我们仍然担心领导通过一些渠道获知了这类消息，这会对本文结果造成偏差。在这种消息泄露的情况下，一方面，领导可能更关心CGCS的个人状况，给她分配更多的任务等；另一方面，CGCS如果察觉到了这种情况，会表现得像在暴露组中那样。这样其实就没有做出很干净的因果推断。为了避免这类情况的发生，作者做了很多维度的无差异解释：分配给CGCS的任务总数、分配给CGCS的重要任务数量、领导描述CGCS工作时用到的词语数量、领导对CGCS工作和生活的熟悉程度，以及领导们在结束调查后的应答率，无论是在遮盖组还是暴露组，都拒绝了上述担忧，进一步地印证了结果的稳健性。

（4）其他担忧

在附录中，或者结合上述回归结果，作者还做了很多稳健性探讨。比如，作者证明了评定领导并不会通过更多其他的渠道（非评定领导、同事等）来获得CGCS的表现情况；CGCS真的是更积极地去工作了，而非同时逢迎两位领导；正如上文所说，CGCS并没有影响到她的同事们；基准回归中领导们对CGCS评分的提高来源于对她们工作更高的认可，而非遮盖组和暴露组中信息质量的差异；在暴露组中，CGCS可能会知道和自己关系不好的领导负责自己的最终评定，进而出现一定程度的摆烂，这种摆烂导致了最终评分的差异，尽管这是一种可能，但作者用经验证据否定了它。

结语

主观评定机制会带来严重的激励扭曲，但有关的经验证据十分缺乏。作者讨论了这种扭曲现象，并论证了一套解决方案的合理性。借助中国境内大规模的随机实验，作者证实有“遮盖”的双领导体制可以很大程度上缓解激励扭曲，让下属将更多的精力投入到有目共赏的经营生产中。本文实证结果具有极高的政策价值，考虑到中国很多组织和部门都遵循双领导结构，这一结果将有可能直接服务于5000余万公共雇员。跳出中国官场这一特定背景，世界范围的各种组织也越来越多地利用双领导体制，例如私营企业中的首席执行官（CEO）与首席运营官（COO），很多双领导体制内如果引入由谁来负责主观评估的不确定性，都可能在一定程度上提高组织运行效率。

注：① 所有表格都省略了表格下附注，以在推文中更清晰展示结果。

② 更多的探讨请参见 AER官网附录。

③ 作者强调，62%的CGCS为女性，因此文中指代CGCS时使用她/她们，对应原文中的She，Her以及Hers；大部分领导是男性，因此文中指代领导时用他/他们，对应原文中的He，Him以及His。

Abstract

Subjective performance evaluation could induce influence activities: employees might devote too much effort to pleasing their evaluator, relative to working toward the goals of the organization itself. We conduct a randomized field experiment among Chinese local civil servants to study the existence and implications of influence activities. We find that civil servants do engage in evaluator-specific influence to affect evaluation outcomes, partly in the form of reallocating work efforts toward job tasks that are more important and observable to the evaluator. Importantly, we show that introducing uncertainty about the evaluator's identity discourages evaluator-specific influence activities and improves bureaucratic work performance.

作者：唐联洲，中国人民大学应用经济学院博士生，邮箱cy.tang@。

声明：推文仅代表文章原作者观点，以及推文作者的评论观点，并不代表香樟经济学术圈公众号平台的观点。

话题：