如何撰写有效的审稿人意见并改善论文评审流程-香樟经济学术圈的财新博客-财新网

推文人 | 高照钰

原文信息：Jonathan B. Berk, Campbell. R. Harvey, and David Hirshleifer. 2017. "How to Write an Effective Referee Report and Improve the Scientific Review Process." Journal of Economic Perspectives 31(1):231-244.

问题提出

如何撰写能够提高论文评审效率的审稿人意见是一个很有意义的实际问题，因为在实际的论文评审过程当中，大量的时间被浪费在论文修改，例如做更多的稳健性检验和论文拓展上。Card和DellaVigna（2013）中提到，最近发表的论文平均长度比1970年代发表的论文长度平均要长三倍以上，而且这还只是比较正文长度的结果，还没有考虑许多论文所包含的网上附录和稳健性检验结果。因此，对这样的论文提供修改意见，甚至于反复修改，即便这些修改能够提升论文质量，这种质量提升所花费的时间成本也会十分惊人。

Ellison(2002a)通过模型论证了论文评审流程日益繁琐（给出修改R&R意见比例日益增加从而导致论文越写越长和反复修改）的一个机制：学术圈“社会规范”（social norm）。科研人员在写作过程中就会开始不自觉地思考和增加自己论文的内容，以加快论文通过评审和发表的速度，但是评审仍然需要对论文提出更多的修改意见以符合优秀期刊的“社会规范”要求，导致即便论文本身虽然已经很长，但依然还需要进行更多的修改和补充。我们的看法也是类似的，我们认为之所以评审过程会走入这个“社会规范”的均衡当中，就是因为评审们通常会通过对被评审论文提出各种问题来向论文期刊编辑证明自己的才智水平或勤奋程度。这必然会导致评审在撰写评审意见时经常会把许多本来无伤大雅的小瑕疵不断夸大为致命缺陷。

除此之外，我们认为另一个导致论文评审和修改过程越发繁琐的原因是意见不断分歧的审稿人意见。Welch(2014)研究了8个主要经济学和金融学期刊的审稿人的评审行为，他发现，第一，评审们对一篇论文给出“修改”（R&R）的概率并没有因为其他评审也给出同样的修改意见而有所提高，也就是说审稿人一般都会默认为一篇论文提出“修改”而不是直接“拒绝”或“接受”的意见；另一方面，就给出“推荐”或者“接受”（A）意见的概率而言，评审们则基本上不会达成一致意见，例如一致“接受”一篇论文去参加一个主要的金融学会议——一个评审给出“接受”意见之后，另一个评审也给出“接受”意见的概率非常低，两个事件的相关系数只有0.28。两方面综合来看，就不难看出评审过程的随意性了：让论文继续去“修改”成为了某种“社会规范”，而在给出“接受”或“拒绝”意见时却几乎总是各执一词。任何一种个人行为成为一种“社会规范”之后，越来越多的人就会顺从这样的规范，所以，当给出“修改”而不是马上拒绝或接受的意见成为“社会规范”之后，越来越多的审稿人就会对论文提出不断修改的要求，导致论文长度越来越长，评审流程越来越繁琐。

为了确认论文评审过程中到底哪些地方出了问题，我们给《美国经济评论》、《政治经济学杂志》、《经济学季刊》、《经济计量学》（双月刊Econometrica），《经济研究评论》和《金融经济学杂志》这些主流期刊的部分前任编辑们致信，询问他们对上述评审流程中效率问题的看法。编辑们几乎一致认为在顶级的经济学期刊里审稿人的确会倾向于犯这些错误，以下正文中斜体的引文都来自我们与这些编辑的信件内容。实际上，这些内容和我们自己在当《金融学杂志》和《金融研究评论》编辑时的自身体会高度一致，我们撰写本文的目的，也是指出这些错误并为审稿人提供一张如何避免这些错误的路线图。

本文并不为论文评审工作提供详细的说明书式的操作指南。对操作指南感兴趣的读者可以参考Berk, Harvey, 和Hirshleifer(2015)，或者Hammermesh(1992,1994)发表在这里（JEP）的两篇短文。本文更加关注那些在审稿过程中出现的我们认为应该改善的方向性问题。

学术重要性：最艰难的决定

实际上，审稿人工作的最困难之处就在于评定论文的学术重要性，这是因为它一方面涉及到一篇论文的选题是否能引起足够多广泛的读者即科研人员的兴趣，另一方面涉及到论文本身是否能对所投期刊提供足够大原创性的科研价值贡献。由于期刊经常收到远远超出（例如所有A刊和大多数B刊的）可用空间数量的论文，因此即便一篇论文是“正确的”（译者注：符合学术规范，方法模型数据都没什么问题的标准一般论文，质量分位数在60%甚至到70%以上），那么由于可发表版面的限制，这些文章也依然会因其对期刊的科研价值贡献不足而被拒。所以，这些期刊的编辑们非常需要审稿人来评估论文的学术重要性，这是一个很现实的问题。这样一来，审稿人在评审意见中所提出的关于论文重要性的观点，当然也更需要有科学证据予以支持，毕竟只有有科学依据支持的审稿人意见才会对编辑做（是否发表该论文的）决定提供有用信息。

但是在一些情况下，学术重要性的评估会被一些评审和编辑个人的看法所扭曲：一些措辞相对积极、作者对论文本身重要性很看好的论文——这些论文通常而言当然比那些中规中矩的论文更容易存在一些技术性或方法性的瑕疵，这些瑕疵却成为了导致这篇论文被拒的原因，因为评审和编辑不愿意承担一些风险。Arrow(1995)曾指出：“我认为现在主要期刊的论文筛选过程已经非常保守，他们更愿意接收一些小修小补的论文，而不愿意去发表有真正贡献的想法。这种保守的倾向也出现在政府机构评审科研项目经费和学院的职称评定上。”

因此，我们在此向审稿人们提出建议：不要仅仅因为一篇论文能够找到其中的漏洞，就否定掉这篇论文本身大的方面的价值；解决重大问题的论文，对它的瑕疵可以适当放宽要求。也就是说，审稿人需要关注的问题，不是论文本身是否完美，而是论文中你发现的缺陷是否足够抵消该论文在学术重要性上的贡献。如果这些缺陷并不足以否定论文本身的学术重要性贡献，那么这篇论文就应该给予“接受”的评审意见。没有一篇论文是完美的，不存在可以消除所有不确定性的论文修改方式，任何论文也总存在进一步拓展深入的空间。审稿人也可以在给出最终评审意见时尝试问自己以下问题：给定这些我发现的缺陷，如果是我自己写出这样的论文，我是否会感到高兴？如果是，那么这就意味着这篇论文应该被接受。

必给和可给意见：成本最高的错误

所有的论文都有瑕疵，抓到关键问题才能反映出一个审稿人的专业素质。但这句话在一些审稿人看来，就意味着我必须小题大做，把发现的论文中的小问题无限放大，这样我才能在期刊编辑面前证明我工作的认真和努力，以及为评审工作付出了大量的脑力劳动和聪明才智。尤其是当一个期刊的编辑并不是所投论文领域的专家（从而他特别依赖审稿人给出的审稿意见）时，审稿人的这种小题大做以改善其在编辑眼里印象的倾向会变得更加严重（Hirshleifer(2015)）：

“一些年轻的审稿人会认为，他们需要对论文中的所有内容持绝对否定的态度，以此来证明自己态度的坚韧和见解的正确性。他们不满意于书写一份只能证明自己阅读了这篇论文并部分了解了作者正在尝试做的事情的审稿人报告。”

通常，此类负面信息过剩的审稿人意见最终会导致论文变得越发笨重冗长。

至于学术圈内为什么现在的负面信息显得比过去更为严重，一个可能的原因是，学术圈的不断扩大和新的从业人员不断加入，致使期刊编辑们很难从与一个审稿人的日常个人接触中来独立评估他的学术素质，这点即使是在最优秀的科研机构和学校当中也在所难免。另外，学科本身知识的不断增长和细分，新的科研课题的不断出现以及与其他学科的交叉和融合，也使得现在的期刊编辑们难以分清审稿人所指出的论文问题是不是大问题；一篇论文所涉及到的细分领域，经常不是编辑本身的专长。

审稿人意见里负面信息的过剩问题也会通过上述Ellison(2002a)中所强调的“社会规范”机制来不断自我加强。由于审稿人意见普遍负面，论文发表就会形成新的“规范”，那些创新性更强、可能解决重大潜在问题的文章就会因为前面说的小瑕疵而被拒绝发表，相比之下中规中矩、看起来毫无瑕疵、能够让审稿人挑不出毛病或者很难挑出毛病的文章就会大行其道。对论文实质的学术重要性的忽视显然会给学科发展带来灾难性的副作用：开展原创性研究的激励被大大降低；越来越多的科研人员选择去撰写中规中矩、四平八稳和审稿人不太容易挑出毛病的文章，学术圈整体成果的原创性不断降低。

减少负面评审意见过剩的一个关键步骤是审稿人必须清楚地区分必给和可给意见：只有那些导致论文无法发表、必须在论文发表之前解决的问题才是必给意见，剩下的意见实际上都是可给的，是审稿人可写可不写的内容。只有审稿人自己清楚地区分了必给和可给意见，才不至于经常给出过多的负面意见和避免导致论文作者论文越写越长，评审工作效率越来越低的问题。

具体而言，从审稿人的角度看，必给和可给这两类意见之间的区别可以从报告中需要支持这两类意见的理由的数量和质量得到判断：一方面，相比于可给意见，必给意见当然必须有更严格的论据加以支撑，必须要能说明为什么目前这些问题会导致论文无法发表；另一方面，通常一个审稿人在给出必给意见时，支持这条意见的理由也会相对更多，如果不是这样，实际上就意味着这条意见未必是他认为“必给”的意见。实际上严格说来，一个审稿人有义务去对论文作者（以及间接地，期刊编辑）清晰地说明，为什么一个他“感觉存在的问题”就成为了导致论文无法发表的关键因素，他必须提供足够科学的依据。这样的评审、修改和发表过程才是更加科学、公正和客观的。如果审稿人不能充分清楚地区分对一篇文章的必给和可给意见，一概认为所有意见都是必给，负面评审意见泛滥的问题就在所难免，因为本来审稿人因为前面指出的原因，主观上就存在小题大做的倾向。

令人惊讶的是，在一些实证文章的评审过程中，很多审稿人只是对论文结果的观感（hunch）来判定它对期刊的学术价值。而且理论文章的评审过程也存在类似的问题：

“一篇理论期刊的审稿人拒绝了一篇文章，提供的理由仅仅是‘我不相信这个证明’。这肯定是不够的。审稿人当然需要对论文有一定的批评态度，但观感是不足以拿来说明为什么一篇理论文章的证明是错的。证明就是证明，证明是严格的数学过程。”

实际上，如果一篇理论文章的证明有误，那么通常适当的建议是“拒绝”，尽管有时候这种错误确实可以被修正。另一种找到理论错误的方法是通过寻找反例。但是，如果作者（正确地）证明了审稿人反例中的错误，那么他们的命题则是成立的。审稿人没有理由、也不应该因此就开始全方位地怀疑这篇论文本身的正确性（‘我不相信这个证明’），这不是科学客观的态度。另外，理论论文的评审意见也可以从要求作者去解释他们的研究结果与文献里研究结果的逻辑关系，或者文献结果在多大程度上取决于非标准的假设（从而说明他们这篇论文自身的价值）出发。而且同时需要记住的是，文献里的结果未必就一定正确。

对实证论文来说，虽然一个贝叶斯型的审稿人可能的确会对先验发生概率就比较低的论文结果持怀疑态度，从而要求论文作者提供更多的证据来支持他们的观点，但显然也不能仅仅因为这个结果本身“令人惊讶”就将其打发了。

诚然，意外结果出错的可能性确实比一般的论文结果要更大，但更合适的审稿人意见是要求作者提供其他新的证据来确认他们的结论，或者要求作者去解释他们反直觉的意外结果与现有文献中结果的逻辑关系，为什么在那些文章里没有出现他们这些结果。另外，审稿人也可以去评估文章中的稳健性检验，以确认其对论文结果的支持是否充分，是否有必要再做一些其他的稳健性检验。无论如何，在做出这些判断时，审稿人都必须意识到哪些评论是必给的，哪些则是无伤大雅，可给可不给的。如果作者后续的修改满足了审稿人的要求，审稿人则应开始考虑是否更新自己先前对这篇文章的看法。

学术期刊文章的评审过程应当重点关注每篇文章的本质内容，只有这样才能给论文作者更多自由度来让他们以他们认为最好的方式来撰写学术论文。在其他条件相同的情况下，有效率的论文评审和修改过程应当做到让学者们能够毫无保留地去拓展和完善自己的想法。而对那些可提可不提、可改可不改的小问题，审稿人不应该去吹毛求疵。

实际上，对论文作者来说，审稿人的每一个意见语气上本来就带有强制性：很少有论文作者会冒着论文被拒的风险而不去做审稿人提到的第n个稳健性检验，也几乎没有作者会以自己而不是审稿人认为最有效的表达方式来写作。这些审稿人与论文作者对话过程中地位的高度不对等，本身就意味着审稿人应该承担更多责任，去引导论文作者将其想法科学地、完整地表达出来，并加以适当修改来渐次达到期刊发表的要求；如果确实很难提高，也应该诚实提供拒绝意见，而不是过分地吹毛求疵，额外增加论文作者的工作量。

R&R中的隐性讨价还价证

作为审稿人，当你给出R&R这个意见时，要记住的是你与作者之间的隐性契约已经开始了：如果作者令人满意地解决了您提出的问题，那么你就应该推荐接受这篇文章发表。这是因为，当你在给出R&R这个意见时，您是在做以下三个陈述：

1）你认为该论文选题的范围和论文的发现足够重要，适合发表于所投期刊，至少有这个可能性；

2）目前该论文存在一些问题，致使其无法以当前形式发表；

3）这些问题是可更正的。

简而言之，R&R意见就意味着审稿人已经进入到协助期刊编辑制作并完成该文章在该期刊发表的一幅路线图上。请注意，协助完成期刊编辑的这一路线图需要论文作者投入大量的修改时间，也通常会严重依赖审稿人所给的审稿意见。而且，作者和期刊编辑之间也是存在隐性契约的，即如果作者以令人满意的方式修改了论文，那么期刊编辑本来就会更有可能接受该论文，即便在下一轮中审稿人又想到了其他的论文改进方向。

因此，请避免把编辑置于一个非常不幸的位置，避免出现第一轮评审当中本该发现的问题却直到第二轮编辑确定论文路线图了审稿人才发现它，请不要这样。审稿人应该在第一轮审稿中就尽可能地提炼自己对该论文的改进想法，重点给出必给意见，这样编辑才能据此为这篇论文的后续进展量身制作有用且可靠的发表路线图。

另外，如果作者还是没有完全解决R&R中提到的这些问题，审稿人也需要延缓一下拒绝的建议，因为这依然有可能是审稿人个人的看法。这也是为什么前面提到的区分必给和可给意见的道理所在，做这样的区分不仅是为了方便降低论文作者不必要的论文修改负担，也是为了方便审稿人自己将来给出前后一致的修改意见，而不至于继续因为小瑕疵没得到修改而拒绝一篇论文，导致编辑之前为论文设定的发表路线图彻底泡汤。毕竟展现在论文上的是作者的名字，而不是审稿人的，如何最好地撰写一篇论文，其决定权应当在作者本人；没有必要因为作者没有完全按照您的观点去修改论文，就弄得论文提交仿佛和扣押人质一般。

在对作者提要求时，审稿人也需要权衡一下论文作者做到审稿意见里的这些要求所需花费的成本，因为从审稿人角度来看，任何审稿意见自然对论文质量而言都有收益，但审稿人并不需要支付获取这些收益的成本，是论文作者在支付这些成本。保持收益超过成本的论文修改才可以具有正的净现值。请不要不加思索地提出一些荒谬的论文修改要求。请不要这样干。

根据这些建议，实际上有效率的“修改并重新提交”流程只应进行一轮，然后就是路线图的最终步骤了。但是显然，现实当中总有意外，有时因为一些不可避免的原因，例如作者仅解决了第一轮中必要修改意见中的一部分问题，导致第二轮R&R在所难免。在这种情况下，期刊编辑和审稿人首先要做的是冷静下来，斟酌考虑再来一轮R&R的必要性，而不是简单建议拒绝这篇论文。理由很简单，论文作者可能仅仅是因为修改成本过高，或者时间的关系，而没有做到事无巨细地把评审意见里提到的所有必要更改都按照要求完成；从期刊编辑的角度来看，保持冷静的理由则是这些审稿人本身所给必要修改意见也未必全部是正确的，而且审稿人在第一轮审稿中未对此论文给出拒绝意见，相反还给出了许多修改意见，这本身也就意味着这篇论文本身质量尚可，值得被反复修改。前后一致，非常重要。这也意味着如果一篇论文本身质量确实很差，例如选题或者作者基本功上的严重缺陷，你也必须马上拒绝这篇论文，而不是盲目地遵从“社会规范”给R&R，进一步耽误所有人的时间；相反，给出R&R之后，如果作者满足了其中的关键要求，则该论文是应当被建议接受的。不要突然提出一组新的要求，甚至反反复复地拒绝论文作者做出的修改。

论文作者和期刊编辑之间，作者和审稿人之间的这种隐性契约关系，需要得到三方的遵守和维持，否则一旦出现前后不一的情况，牺牲的是整个论文评审过程的效率，甚至会因为一些人为的因素导致一篇本来还不错的文章最终无法通过修改和发表，这不论对作者个人而言，还是对期刊质量、审稿人个人在编辑眼里的学术素质，甚至对学术圈整体而言，都没有任何的好处，无法做到增量地供应学术圈内的知识。

结论

学术论文的同行评议过程对于学术研究的发展进步至关重要。它是通过专业科研工作者的分散决策过程来集体制定经济学研究标准的一种核心机制。同时我们也认为，科研人员对彼此论文的评审方式需要做一些根本性的改变，这样才能提高论文评审过程的完整性、质量和效率。我们充分相信审稿文化朝这些方向去改变是可能的；当这种可能性被广泛认可时，它就会发生。这种变化本身也将会改善科研人员开展新的研究和交流新的研究成果的方式和过程，并促使学者重新把宝贵的工作时间从发表和评审转移到创新性研究本身上来。

论文评审是一项艰巨的工作。不幸的是，就像该行业中的其他人一样，我们三个也都犯过本文所强调的许多错误。我们希望可以通过讨论审稿人评审准则并指出当前论文评审工作中的一些功能性失调问题，来一方面改善我们自己的论文评审工作效率，另一方面为改进经济学论文评审文化贡献自己的一份绵薄之力。倡导一个没有人犯错的世界可能是不现实的，但是，如果我们不能意识到这些问题，任何的改进也同样不可能。实际上，如果学术界能普遍认识到上述评审过程中的问题，改变或许已经开始了。

话题：