Citation Trap！警惕年底发文！-香樟经济学术圈的财新博客-财新网

推文人 | 广纳百川

原文信息：Ma C, Li Y, Guo F*, Si K. The citation trap: Papers published at year-end receive systematically fewer citations. Journal of Economic Behavior & Organization. 2019, online.

政治哲学里有个著名的机会平等（Equality of Opportunity）理论，大意是个体所珍视的那些东西（称为“优势”advantage，比如收入、地位、健康等），由两方面因素决定：自己无力控制的称为“环境”（circumstance），自己可控的称为“努力”（effort）。如果“优势”上的不平等是由“努力”因素造成的，这在道德上很合理；如果是由“环境”因素带来的，那么就是机会的不平等。在现实生活中，“环境”究竟对一个人的“优势”起到多大作用，是不同派系学者们争论的焦点。例如，精英主义者（meritocracy）通常认为自己所获得的一切全靠“努力”得来；而罗尔斯主义者（Rawlsian）则倾向于强调“环境”的作用，因此需要通过社会政策的调节来给大家提供平等的机会。

在Journal of Economic Behavior & Organization(JEBO)最新上线的论文中，马超、李亦威、郭峰*、司考四位作者巧妙地考察了某一特殊人群（经济学家）所珍视的“优势”（论文被引次数），是如何被某一细小“环境”（论文被排在了年初还是年末）所左右的。他们发现，纵然经济学家们可以非常“努力”地写出高质量的论文并发表，但如果论文不幸发在了年末（10月-12月），论文引用次数要比非年末打个8折。你看，一个小小的“环境”居然就左右了20%的“优势”，精英主义者们又怎能拍着胸脯心安理得地说，我所有的成功都moral deserve？

-----------------------------------------------------

回到正题，为什么年末的论文引用次数少？举个例子，今天2019年9月9日，假设你想搜某个话题近5年的研究，多数情况下你会以2015年1月1日作为起点开始搜，而不是从2015年9月9日开始（虽然2015.9.9-2019.9.9才是真正的“近5年”）。这种搜索习惯就会让年底的文章被暴露在搜索中的时间少于年初的文章。不失一般性，假设A文章发表于2014年12月，B文章发表于2015年1月。A文章会在2014年12月、2015全年、2016全年、2017全年、2018全年这49个月处在检索时间范围内，到了2019年，人们搜索近5年的文章就不会再搜索2014年的研究，因此A不在检索范围内。而B文章，会在2015.1-2019.12这60个月中全处在检索时间范围内。所以，B比A晚发表一个月，却能比A多被人检索11个月，因此也会有更大概率被引用。这样由于搜索而造成年末论文被引更少的现象，在文中被称为Citation Trap。

文章收集了1956年-2010年期间Web of Science上的经济学论文，剔除掉关键变量缺失的样本，以及AERpp这种特殊月份的特刊，共有样本208,977篇。如下图，可以清楚的看到，论文在全年中的被引次数呈递减状。

其实，学术搜索引擎也在一直误导大家去制造Citation Trap。比如下图Google Scholar的界面左侧，是“Since 2013”、“ Since 2016”，而不是“recent 4 years”、“recent 1 year”。其他学术搜索引擎，如WoS、Jstor都是这样，就不截图了。你按照他们的界面点击鼠标，就已经在制造Citation Trap。

-----------------------------------------------------

为了验证上述结论，作者构建了一个基准模型：

其中，因变量是log(被引次数)，核心变量是yr_end（1=年末，10-12月；0=其他月份）。此外，模型还包含了一系列控制变量，以及年份FE、期刊FE或者交互FE。估计结果表明，年末发表文章的被引次数相比非年末，要少约20%左右。该结论稳健，具体见表2。

随后作者做了一系列稳健性检验，以保证主结果的可信。作者分别去除了0值、去除了最高引5%的，将OLS改为Nb-reg、Inv-sine，将年末的定义从10-12月改为12月、11-12月、9-12月、8-12月、7-12月，结果依然稳健。如果将核心变量由是否年末的dummy，改成以1月为基准，11个月份的dummy去回归，也同样发现越是年末的月份，引用显著越少。具体表格略去。

到这里，还没有完全打消疑虑。因为年末的文章比年初的文章后发表，后发表当然被引的少，被引少到底是citation trap还是仅仅因为出现的晚？作者通过构造新的“年”来打消这一疑虑：正常的“年”是从1月到12月，作者构造了“Oct-Year”，是指用前一年的10月作为一年的起始，用当年的9月作为一年的末尾。这样的好处是，在进行上述回归时，是用当年的1-9月vs.前一年的10-12月，也就是说年末的文章其实比年初的文章早发表了好几个月，如果还发现负的显著，那就说明年末被引次数少不是因为出现的晚这一原因。同理，还可以构造“Dec-Year”、“Nov-Year”等，如Table 5。这种设定也可以认为是citation trap的下界。

-----------------------------------------------------

到此为止，读者应该对“年末论文引用次数少于年初论文”这一结论买账，但还无法说明，“年末论文引用次数少于年初论文”是由于前文说的检索导致的citation trap，还是其他不可观测因素。作者用了两个suggestive evidence来验证。

（1）如果是检索导致的citation trap，那么可以预期，Year-end系数应该随着时间推移越来越显著，负的绝对值越来越大。因为越是当代，越依赖于“网络检索”。表7第2-7列验证了这一点。

（2）如果是检索导致的citation trap，那么可以预期，Top期刊这种效应小，非Top期刊这种效应大。因为Top期刊有一群忠实读者，而非Top期刊上的论文被人读到，更依赖于“检索”。表7第1列验证了这一点。

-----------------------------------------------------

此外，作者还对论文细节性问题进行了探讨：

问题1：老练的学者（团队）会不会有“策略性投稿”，让自己的论文在年初发表？

（1）文章从作者团队角度增加了两个控制变量，用以控制学者（团队）的特征：一个是该论文的作者团队，近5年来发文总数；另一个是作者团队近5年发表所跨的学科数。结果几乎不变。

（2）诺奖得主，够老练了吧，似乎也没有什么让自己论文在年初发表的“策略性投稿”。如Figure 4。

（3）本文作者进行了一个针对学者的在线调研，调研结果不支持存在“策略性投稿”。

问题2：期刊编辑会不会对年初年末有不同的安排？比如编辑把牛人的放年初，或者年末了版面剩余的多就放松了要求？

其实从上面诺奖得主的图就可以发现，期刊编辑并没有这样的安排。

本文作者还通过IV，进一步排除了这一机制。具体而言，IV是谷歌用户搜索“spring festival”的Google Trends，如Figure A3。因为中国春节通常在1月或2月，因此年初全世界在谷歌上搜索“spring festival”的词频非常高，具有很明显的季节性周期变化，正好与本文的Year-end dummy高度负相关。同时，网络上如何搜索“spring festival”显然与经济学家论文的被引次数无关。IV结果进一步证明了文章结论，表略。

问题3：论文在搜索引擎出现的位置会不会有影响？

给定citation trap存在，一篇年初发表的论文引用率高，搜索引擎通常会把被引次数高的论文放前面（ordering effect），然后这些文献就更有可能被看到，从而不断“自我加强”产生更高的被引（reinforcement effect）。即会不会citation trap effect本身很小，造成年末论文引用少的主要原因是ordering effect带来的reinforcement effect？

作者给予了回应，（1）reinforcement effect存在的前提就是citation trap，这已经表明了citation trap的存在。（2）即便拿当年年末vs.下一年年初，仍然存在年末被引的负效应（Table 5）。（3）如果真的是reinforcement effect占主导，那么应该发现久远时代的年末负效应更强（因为被不断reinforce），但现实是越靠近今天，年末负效应越强（如Tabel 7）。

以上是论文的主要内容，感兴趣的朋友可以阅读原文。这篇文章的方法并不复杂，内容略有点奇葩（听到标题会想“这啥情况啊”），但耳目一新的故事（读完感慨“我咋就没想到呢”）让该文发到了JEBO上。提示我们：有趣的话题来源于对生活的留意和思考。在枯燥的学术生活中要做个有心人！当然，为了确保结论的稳健和可靠，作者也进行了一系列的论证和分析。

Abstract

The present research reveals that academic papers published at year-end on average receive systematically fewer citations than papers published at other times in the year. Using more than 20 0,0 0 0 papers in economics published between 1956 and 2010, the results of our analysis show that papers published between October and December on average get as much as 18.5% fewer citations than those published in the other months in the year. We refer to this phenomenon as the citation trap as there is no evidence that papers published at different times in the year differ in their academic quality. We propose that the current effect could arise because of the time window options in most online academic search engines: the specific setting of those options leads papers published at year-end to appear in the engines’ search results for a systematically shorter period of time as compared to papers published at other months in the year. Our analysis reveals evidence that is consistent with the proposed mechanism and that rules out several alternative explanations. Implications of the current research for academia and possible solutions to mitigate the citation trap are discussed.

话题：