图片来源:ChatGTP4.0绘制
原文信息:
Sifan Zhou, Sen Chai,Richard B. Freeman,Knowledge flow,Forward citation,Gender inequality,Gender homophily and Field & cohort heterogeneity,Research Policy,2024,104895
01
引言
近几十年来,女性学历水平逐渐提高但女性事业发展仍然缓慢,部分原因是在职业关键阶段女性相较于男性发表的文章和引用量较少,通过引用次数和荣誉获得的女性认可度较低,导致女性较高的职业流失率和高级职位中的代表性不足。
本文检验了在女性获得新博士学位的主要科学领域——生命科学领域,女性和男性撰写的文章接收到的向前引用(在其后的文章中对引用文章的引用)差异。并评估了引用性别同质性对男性和女性引用差距的影响。男性科学家和男性作者在大多数领域发表的论文数量更多,因此形成男性和女性引用差别,减缓了女性在科学领域的进步。在某种程度上,科学家多样化学习受限,也扭曲和减缓了科学的进步。
群体内对引用与自己性别相同的作者文章偏好导致了向前引用的差异,但向后引用的性别同质性与向前引用中的性别效应之间的联系是间接的,未得到充分证实。“向后引用性别同质性”对“女性论文相较于男性论文获得的前向引用”的影响取决于女性和男性在引用中同质性的大小、不同科学共同体中的性别分布以及两者的交互作用。引文在学术评价中有重要作用,研究性别引文同质性如何影响向前引文中的性别差距,对确定这一女性学术生涯障碍至关重要。
生命科学领域有很多学科,允许在不同女性作者占比领域进行性别同质性比较,且体现了女性获得大多数博士学位进程和她们在学术职位上延续少数地位之间的难题,故本文关注生命科学的研究文章。我们通过第一作者性别和末位作者性别对文章进行分类。通过对比在观察上尽可能相似的文章和作者来估计性别和同质性对引用的本质影响。我们发现(1)即使在观测相等的论文和作者中,引用的性别同质性是本质的。这种模式让女性在不具代表性的领域中处于劣势,并且存在性别偏见。(2)年轻科学家团队相较于较老团队在接受向前引用方面存在较少的性别同质性。(3)通过研究引用性别同质性可能产生的途径,发现引用性别同质性倾向源于研究主题的性别专业化,较小程度上,源于科学家之间专业联系的性别同质性,而不是从名字中推断性别而对未知作者的直接歧视。
鉴于普遍使用向前引用量来评估文章和评价科学家,这种群体内偏好(引用性别同质性)将在学者职业生涯中加深少数群体的少数地位,并阻碍了与性别无关的知识流动,加强了研究领域的性别选择。本文来自生命科学领域广泛数据集的证据可被作为政策制定者和管理者在进行评估和政策制定时的参考点。
研究背景
02
在一些领域,尤其是生命科学领域,女性占比已经赶上或超过了男性占比,但学位和职位之间的差距没有改变。如图1A所示。女性职业发展差距以研究生产力(发表论文数量、被引用次数)进行衡量,直接影响研究人员的关键职业阶段。以往研究发现,女性发表文章的频率低于男性,但其原因无法明确解释。
其次,考察女性和男性研究的被引用频率,基于各领域出版物大样本的研究发现女性出版物被引用次数少于男性,如图1B所示。基于特殊领域的小样本研究发现女性文章引用次数也少于男性。
深挖性别引用差距的驱使因素,发现性别同质性是一种潜在的机制。现有研究表明,同质性表现在各种社会互动中。大多数引用性别同质性研究集中于向后引用,并且他们预测(大多数预测基于被引用文章的特征)了在没有性别同质性作为比较基准的情况下,参考文献列表的性别构成,并显示了实际参考文献列表的性别构成与基准不同。
在向前引用性别差距的影响未被直接估计的背景下。本文直接量化性别同质性参考行为和向前引用中的性别差距之间的关联。由于学术评估普遍使用向前引用的数量,而不是后向引用,所以向前引用受文章科学内容以外的因素影响,对学术生涯中观察到的性别差距影响很大。
引用性别同质性的文章通常集中于单一领域,本文从正向引用角度探索研究生产力的性别差距,解析这些文献中的差距。同时讨论两种性别表现出来的相对同质程度以及由此导致的引用性别差距是否以及如何根据领域层面的性别代表变化而变化。
03
实证策略
我们分三步分析生命科学领域引用的性别差异。首先,我们将文献计量数据库PubMed和Microsoft Academic Graph(MAG)的论文和引文数据结合起来,测量论文之间的引用联系。其次,通过将名字与作者可能性别联系起来的算法来推算作者性别。最后,通过回归分析,控制论文和作者特征,分离作者性别对引文数量和性别构成的影响。
3.1. 数据和样本
首先,结合PubMed与MAG数据库,通过PubMe显示的作者全名判断作者性别。使用MAG计算文章的向前引用量,并通过MAG提供的作者姓名消歧标识符判断同名作者是否为同一人。其次,本文将样本选取在2002年至2017年之间发表的期刊文章,将PubMed中大约95%的文章与MAG中的记录进行一对一匹配,删除不匹配以及非一对一匹配的记录。同时设限样本为英文且不超过17位作者的出版物,并删除缺少数据的文章。最后,确定最终样本为2432806篇被引用文章,并使用1975年至2020年PubMed和MAG之间所有可用的匹配文章来进行变量构建。
3.2. 性别填充
为推断作者性别,首先,我们从作者从属关系级别数据中提取姓名和国家信息,并清洗姓名数据。之后将每个名字及国家层次的观察数据输入到Genderize.io中,在有国家信息和没有国家信息两种情况下,获得名字的频率及其相应性别对应的概率,由于罕见名字性别赋予误差较大,所以当名字在数据库中出现的频率达到10的阈值时才予以性别判断。如果名字的全球输入性别与其国家特定性别冲突,使用后者。其次,为了解决同一个人可能被推断为不同性别的问题,我们使用形式性别作为每个独特作者的性别。最后,我们按末位作者的性别为女性通常是首席研究员/实验室负责人,或第一作者为女性通常是主要研究员/顾问的标准,将多作者文章的性别分类为女性主导。
3.3. 实证分析
为了估计接收向前引用的性别差异和性别同质性程度,我们使用以下线性回归模型:
其中i为文章,t为发表年份,j为期刊,f为研究领域或科学概念,a为作者从属关系。
因变量是t年发表的文章i在出版后三年间接收的向前引用数量。上标G表示我们在不同分析中使用的向前引文变量包括:(1)一篇文章被引用的总次数,(2)任一作者对文章的自引次数,(3)男性主导文章的非自引次数,(4)女性主导文章的非自引次数。
关键自变量为被引文作者的推测性别femalei。主要分析中我们使用以下两个变量:(1)如果最末位作者为女性,末位作者女性等于“1”,(2)如果文章的第一作者为女性,第一作者女性等于“1”。无论哪种情况,估计β1为负,表示女性作者文章相较于男性作者文章接收更少的引用。形成与作者的性别相关的影响因素,包括:作者和文章特征变量向量Xi;一篇论文的研究领域和科学概念的一系列固定效应σf;一系列从属关系固定效应τa;一系列期刊固定效应λj;和出版年份固定效应μt。
3.4. 变量和汇总统计
表1对比了可能影响男性和女性向前引用的可观测因素,它确定了许多潜在重要的引用决定性因素的实质性和统计上的显著差异。
其一,作者的经验。就工作年限和发表的论文数量而言,女科学家的经验不如男科学家。因此,将作者的经验(以年为单位)以及作者的累积出版物纳入回归。
其二,作者过去被引用的次数。表格表明,截至论文发表年份,无论末位作者还是第一作者为男性的文章平均引用数量均高于女性。因此,将累积引用纳入回归模型,以控制作者的影响。
其三,作者数量。多位作者的文章倾向于得到更多的引用。表格表明,与男性相比,末位为女性的文章作者较少,首位作者为女性的作者较多。因此,将文章作者数量纳入回归分析。
其四,文章长度。长文章相较于短文章可能包含更多的知识,会增加向前引用的数量。在我们的分析中,参考文献列表的长度通过文章引用的数量来衡量,纳入回归模型。
其五,发表论文期刊的影响因子。它对读者是一个潜在的吸引力,甚至可以推动论文的引用量。在任何情况下,影响因子都与引用呈正相关。因此将期刊影响因子纳入回归。
其六,男性和女性都倾向于不同领域和领域内不同主题的工作会影响引用量。本文区分了288个研究领域,每个领域平均有8447篇文章。MAG的主题建模算法为每篇文章分配科学概念,并为每个概念分配概率分数。并使用概率得分最高的科学概念作为最能描述文章的概念。样本被标记为59411个不同的科学概念,平均每个科学概念41篇文章。因此,在回归分析中纳入研究领域和概念的固定效应。
结果
04
4.1. 女性主导和男性主导文章的向前引用
表2为因变量的汇总统计:整体引用、自我引用、其他男性主导的文章引用,以及其他女性主导的文章引用。
我们发现:
(1)与早期研究一致,当我们比较末位作者性别和第一作者性别时,女性主导的文章相较于男性主导的文章都获得更少的向前引用量。排除对男性有利的自我引用,性别引用差距依然很大。
(2)文章的评价相似时,应该用潜在引用的文章来近似地识别,一般倾向于引用较高质量文章,但图2A和B显示出不同的观点:转发引用表现出性别同质性。与女性主导的文章相比,男性主导的文章从随后男性主导的文章中获得更高的引用。
(3)女性主导文章接受男性主导文章引用的劣势超过接受女性文章引用的优势,使女性主导文章在整体引用时处于劣势。
4.2. 可观测特征对引文性别同质性的影响
本小节讨论由女性主导和男性主导文章特征或作者特征对造成性别引用同质性的影响程度。引入控制变量后大大降低了性别引用同质性的估计大小,但仍然存在引用性别同质性。
表3A和B面板中的4-6列显示,女性主导的文章从其他女性主导的文章中获得引用方面的优势不能抵消她们在从其他男性主导的文章中获得引用的劣势。
考虑女性和男性缺乏概念一致性而较少受到另一性别的引用。我们在表3A和B面板的第7-9列增加了概念层面的固定效应。固定效应的加入降低了性别同质性对向前引用的估计影响,但符号和统计显著性仍然存在,女性主导的文章仍处于劣势。但是,我们在该领域层面对研究人员的职业生涯可能更有意义,此时他们能与更广泛学科的同行进行比较,而不是在与研究同一科学概念的狭窄领域内的研究者群体进行比较。
4.3. 引文中性别同质性的研究领域和群体差异
本小节评估在不同性别组成领域和分组中引用性别同质性的程度,表4报告了男性和女性在生命科学中的十大主要领域,并且显示了他们向前引用性别组成的差异。
为了解性别同质性是否以及如何随着研究领域的性别比例变化而变化,以及由此产生的对所有其他作者和文章特征性别差距的影响,利用女性代表份额将每个MAG科学概念分类为10个百分点的类别,并对每个子样本进行上述相同分析。发现,无论性别比例如何,性别同质性仍然存在。与男性主导的文章相比,女性主导的文章从女性主导的文章中获得了更多的引用(红线),而从男性主导的文章中获得的引用则较少(蓝线)。同时,一个科学领域中女性主导的作者比例越高,转发引用的性别差距(灰条)就越小,当女性作者的比例高于平均水平时,性别差距就会消失,或者对女性来说,性别差距甚至变为正,尽管仍然不显著。
这一模式暗示,在女性不具代表性的研究领域,女性主导文章接收女性引用的优势不能抵消男性主导文章引用带来的劣势,导致更大规模的性别引用差异,女性在该领域的少数地位被强化。在性别平衡的研究领域,向前引文的性别同质性仍然存在。因此,当某些研究领域的女性比例达到性别平等,向前引用的性别差距缩小时,仍可能隐藏着作者在引用时的性别同质行为。
图1A显示,从2000年至2020年,生命科学家的女性比例呈上升趋势。本文探索了新一代科学家引用中的性别同质性及其对性别引用差距的影响及程度。我们利用作者首次发表文章年份将他们分成特定的组,最老组为1985年之前,最新组为2015-2017年之间。在图3面板C和D中展示了八个组的性别同质性估计系数。红点和蓝点分别表示特定队列的女性末位或第一作者对后续被女性主导文章和男性主导文章引用的影响。由图可知,性别同质性仍然存在(红线位于蓝线之上),但在最新的科学家群体中,性别同质性逐渐减少(红线和蓝线有接近趋势)。灰色条表示性别差距下降,女性参与人数逐渐增加。这与未分组前的结论一致。随着女性参与占比的增加,女性的劣势逐渐缩小,总体转发引用的性别差距变小。
4.4. 稳健性检验
本小节中,如表5所示我们使用作者团队的不同性别构成指标对被引文章进行性别分类,并进行稳健性测试。奇数列和偶数列的因变量分别为女性和男性主导文章的引用,分别对以下情况进行回归:其一,末位(第一)和非末位(非第一)作者的数量;其二,女性末位作者、女性第一作者和位居中间作者的女性作者的数量;其三,三个指标变量:(1)少数女性,当女性作者占团队作者的一半以下时为1,否则为0。(2)女性占多数,当女性作者占团队成员的一半或以上时为1,否则为0。(3)均为女性,所有作者均为女性时为1,否则为0。在表5AB板块中,全部为男性作者的文章是参考组,其系数可省略。最后,在第7列和第8列中,我们简单地对女性的比例进行回归。发现向前引用的性别同质性对于所有规格都是稳健的。如各列系数(正负)和显著性所示,引用性别同质性仍存在。
我们进一步将收到的向前引用分解为:(1)所有男性文章的引用次数。(2)少数女性文章的引用次数。(3)大多数女性文章的引用次数。(4)所有女性文章的引用次数。表6显示四个变量作为因变量的回归结果。发现性别同质性在向前引用中仍然稳健。控制所有可观察和固定效应后,第1列显示,表明男性从后续男性主导文章中获得的引用更多。第3列和第4列显示,表明女性倾向于从后续女性主导文章中获得更多的引用。
我们还尝试了使用泊松QML回归模型替代表3的回归函数,结果与主要发现一致。
控制变量中,中间作者的特征也会影响文章接收向前引用。因此,我们构造了8个新变量,并将它们添加为控制变量:(1)排名最高的中间作者(在样本中按机构级别的出版物数量进行排名)作为固定效应,(2)前100位从属关系的中间作者所占比例(在样本中按机构级别的出版物数量进行排名),(3)中间作者的平均工作年限,(4)中间作者的平均累计发表数,(5)中间作者的平均累计被引数,(6)中间作者的最长工作年限,(7)中间作者的最高累计发表数,(8)中间作者的最高累计被引数。在分析中,选取至少有三位作者的文章作为样本。有更高威望的从属关系更影响中间作者,对引用数量具有积极影响,在这些额外的控制和固定影响下仍然保持稳健。
我们用扩大样本(第一作者不是美国人)重复分析,发现结果与基准测试(第一作者为美国人的样本)一致。
最后,我们对第一作者和最后作者使用了两套性别归责标准,严格版要求名字在Genderize.io数据库中出现的频率达到10,指定性别的概率至少为90%。宽松版对频率或概率没有限制,结果依旧稳健。
总之,我们发现对于不同的文章性别分配方式、不同的样本、不同的中间作者特征和不同的计量经济学规范,结果都是稳健的。
05引文同质性与专业联系、性别歧视、专门化的兴趣
本节探讨了导致引用性别同质性的三个潜在途径:按性别分类的专业联系、基于名字性别对不知名研究者的性别歧视、按性别和专门化的研究兴趣。
5.1. 专业联系中的性别同质性
人们更可能从他们的专业联系中获得引用,并且存在性别同质性。我们假设研究者过去专业联系的性别同质性是观测到的生命科学领域向前引用性别同质性的一个促成因素。
为证实性别构成与合作者的性别构成相关。我们使用直接合作者作为专业联系的代理,即在文章发表前三年内与被引用文章作者团队的一位或多位作者发表过论文的研究者。表7根据被引文章的末位作者(表7A)和第一作者(表7B)的性别比较了男性、女性与总体合作者的数量。与已有研究结果一致(Holman和Morandin,2019;Lee 等,2019),我们观察到合作者构成也表现出性别同质性:两种性别的同性合作者比例都高于随机预测的比例。
为了展示合作者的组成如何影响引文,我们首先用新的样本重复最初的回归用方程(1),并在表8的第1-3列中显示结果,以提供一个基准进行比较。其次,我们在方程(1)中加入男性合作者数量和女性合作者数量,在第4-6列中显示回归结果。最后,表8A第6列中显示,增加男性合作者的数量会增加总引用数,而增加女性合作者的数量则相反。
虽然效应量的改变很小,但这些变量仅是作者团队专业联系的规模和组成的代理。但要注意,合作者是合作关系的子集,合作关系是专业联系的子集。在表8B中,当我们使用第一作者性别对引用和被引文献进行分类时,发现了一致的模式。最后,比较列4和列1、列5和列2、列6和列3,在回归中加入男性合作者数量和女性合作者数量时,女性末位作者变量的系数减小。证明了引用性别同质性是通过专业联系中的性别同质性来实现的。
5.2. 基于性别化名字的歧视
当研究人员随机遇到未知作者,在决定是否引用他的文章时,可以通过名字推断作者的性别,而且更易选择同性别作者的文章。我们利用期刊文章中全名的差异来测试“基于性别化名字的歧视”假设。我们估计:
使用由末位作者撰写的797382篇文章组成的子样本,我们从消除歧义的作者数据库中输入其性别。当个人作为末位作者没有在文章i上显示全名时,变量OnlyInitialsis等于1。我们还控制了一系列个人的固定效应(ϕs)。其中个体是(females)的性别指标被个体固定效应所吸收,不会单独出现在回归中。β2是OnlyInitialsis与性别指标females交互项的系数(不显著的β2表明,尽管女性主导的文章在接受男性主导的文章的引用方面处于劣势,但通过不显示全名隐藏其性别并不能改变这种劣势)。我们还对由第一作者撰写且偶尔不显示全名的381957篇文章的子样本进行了相同的分析。
表9回归结果显示,同一女性,无论是否显示全名(性别是否可以被陌生人猜测),她从女性和男性那里获得的引用数量都没有显著变化(第1列和第4列、第2列和第5列),即不会改变该作者主导的文章从男性和女性主导的文章中被引用的情况。因此排除了“基于性别化名字的歧视”的假设。
5.3. 性别专门化的研究兴趣
我们比较了同一领域和科学概念中男性和女性主导文章的引用量。发现,即使在研究相同科学概念的研究者中,男性和女性可以分类到不同的细化主题,导致引用中的“主题同质性”表现为“性别同质性”,主题对未来引用的吸引力也不同。
进一步解决跨研究主题的性别分类问题,我们将样本中的每篇被引文章与同一年发表的第一作者为美国的PMRA中最相似的文章进行匹配(Azoulay 等,2015;Marx 和 Hsu, 2022)。然后我们比较每对文章引用,结果如表10所示。1-3列,用匹配样本重复初始回归作为比较基准。4-6列,添加匹配文章对的固定效应。性别替代变量的系数反映了配对内差异。以女性主导的文章引用为因变量,第4列女性末位作者的系数为正,但比第一列小得多且不显著。意味着一个由男性主导的文章和另一个由女性主导的文章被后续女性主导的文章同等对待。在使用男性主导的文章引用时,第5列中女性末位作者的系数仍然为负且显著。表10B中,我们将被引文章和被引文章都按照第一作者进行了性别划分,结果相似。
结果表明,性别分类的狭窄主题是在领域或科学概念上引用性别同质性的部分原因。
讨论与结论
06
研究结果表明,在生命科学领域向前引文普遍表现出性别同质性,并使女性在获得向前引用方面处于不利地位,也会损害女性在学术研究中的职业发展。生命科学领域女性代表人数的增加趋势开始缓解性别同质性的不利影响。但性别同质性仍然存在,并扭曲知识流动和贡献。
本文仍然存在不足,论文在确定驱动这种模式的最终机制方面是有限的,特别是研究主题的性别选择与专业联系中的性别同质性之间的复杂关系。
为推进文献引用和政策设计,尝试在会议中增加性别中立的互动以扩大网络是一个良好的起点。本文提出以下建议:(1)组织者可以设计座位安排,使研究者更好地混合在一起,减少性别或重复出现的分组。(2)临时搭配可增加协作。会议组织者和研究人员可以设计适合该群体的实验。(3)建立专门针对妇女的协会或以妇女为主的委员会,促进女性对女性的联网,鼓励高级女性指导初级女性改善她们的职业前景(4)创建一个更加性别融合的科学界。提高科学家和决策者对性别同质性存在及其后果的认识。(5)政策制定者和管理者在评估研究人员和制定政策时也应考虑性别引用同质性(Graddy-Reed和Lanahan, 2023)。(6)所有利益攸关方共同努力,朝着更加性别一体化的科学界迈进,为女性创造更公平的机会,并通过加强知识传播和随后重组的多样性来改善科学。
Abstract
Based on an extensive sample of articles in the life sciences, we find that gender homophily in forward citations is substantial: compared to men-led articles (i.e., those with men as either the first or last author), women-led articles receive fewer forward citations from subsequent men-led articles and more forward citations from subsequent women-led articles. This occurs across life science fields with varying gender ratios. Forward citations flow differentially to papers led by women versus men for a variety of reasons, including the detailed field and scientific concepts covered in the articles, the journals in which theyare published, article length, authors' research experience, and the size of the author team. After accounting for this extensive set of factors, we find some forward citations appear to be driven by gender citation homophily – that is, gender alignment between citing and cited authors. This pattern greatly disadvantages women in fields where they are underrepresented, leading to a gender citation gap, compared to more gender-balanced fields, where the gap is shrinking. We also find that articles written by more recent cohorts of scientists are subject to less gender citation homophily than earlier cohorts. Investigation into potential pathways by which gender citation homophily operates suggests it stems from gendered specialization in research niches and, to a lesser extent, from gender homophily in professional connections among scientists, as opposed to from direct discrimination against unknown authors based on gender inferred from their names. Since gender homophily in citations impedes gender-indifferent knowledge flow in most fields, its adverse impact on science likely includes not only slowing women's careers but also creating a less efficient diffusion of knowledge and recombination of work from earlier papers into newer work.
声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。
0
推荐