图片来源:Chatgpt
原文信息:Krishna, K., Akyol, P., & Ozer, E. (2025). Do time-constraints matter? How, why, and for whom? (NBER Working Paper No. 33679). National Bureau of Economic Research.
01
引言
该研究通过结构模型与实地实验相结合的方法,深入探讨了多选题考试中时间约束对考生表现及考试筛选效度的影响。研究发现,时间压力通过影响考生的信号精度(判断准确性)而非传统认为的风险偏好或信心水平来作用于考试成绩,且这种影响呈现显著的"能力-难度"匹配特征——当题目难度与考生能力相匹配时,时间增益最为明显。研究特别挑战了教育测量中的性别刻板印象,发现男女考生的表现差异主要源于"信号生产函数"(将时间转化为答题准确度的效率)的不同,而非风险偏好或自信程度的差别。这些发现为高风险考试的设计优化提供了重要启示:通过精准匹配题目难度梯度与时间分配策略,并合理运用负向计分规则,可以显著提升考试的区分效度。该研究采用的结构化建模方法,不仅适用于教育评估领域,也为医疗诊断、人才选拔等需要时间约束下精准决策的场景提供了方法论借鉴。
文章分为实验设计与核心发现(第二部分)、考生决策行为的理论模型(第三部分)、对模型的识别与估计(第四部分),第五部分作者提出了考试设计优化组合方案,为提升考试筛选效率提供量化依据。
实验
02
(1)实验设计
本实验于2022年秋季在土耳其一所高中的高三年级学生中开展。参与者被随机分为两组:对照组(总测试时间较短)和实验组(总测试时间较长),分别称为时间压力组和时间宽松组。考试采用选择题形式,每道题设有五个选项,其中仅有一个正确答案。答对得1分,答错扣0.25分,跳过题目则不得分。所有学生使用相同的题册进行评估,内容涵盖土耳其语、数学、科学和社会科学四个学科。因此,观测单元是"学生-试题"组合。时间压力组被要求在40分钟内完成测试,而时间宽松组则获得75分钟。尽管学生在考前已了解考试结构,但具体作答时长直到开考前才予以告知。为确保实验结果与高利害考试(high-stakes test)相符,我们根据学生在各自组别中的考试排名实施奖励机制,以避免低利害考试的测量结果可能出现向下偏差且排名失准的问题(Akyol et al., 2021)。排名前三位的学生可获得30美元奖励,随后每三个排名区间的奖励金额递减3美元。
(2)实验结果
平均处理效应:研究发现,时间压力减轻会带来三个关键变化:首先,随着时间增加,学生跳过题目的比例显著下降9个百分点(p<0.05),这表明更充裕的思考时间能提升答题信心;其次,虽然作答准确率仅小幅提升(统计不显著),但总成绩仍呈现显著提高;最后,错误答案比例略有下降但变化不显著,这反映了"边际效应"——额外时间既提高了原有题目的正确率,又促使学生尝试更多不确定的题目,二者作用相互抵消。这些发现印证了"时间压力影响信号精度"的理论:更多答题时间能提升学生对正确答案的识别能力,从而改变其答题策略——从保守性跳题转向更多尝试,最终显著提高总分。
虽然提高分数总体有益,但分班决策的关键在于排名。如果不同群体对时间压力的反应存在差异,考试筛选结果可能不如意。
性别异质性:Table 2显示了两性在不同考核指标上的处理效应。虽然男女学生在获得额外时间后正确率分数和总分均有所提升,跳题率均有所下降,但女性在正确率分数和总分上的提升在5%水平上均不显著。男性跳题率的降幅(10.1个百分点)大于女性(7.5个百分点)。
值得注意的是,Table 3显示男性初始跳题率本就低于女性。在获得更多时间后,男性跳题率的下降幅度反而更大。由于答错题是精算公平的(actuarially fair),那么跳题会降低预期得分,这种现象直接导致男性比女性获得更大的分数提升。这与与自信心/风险厌恶特性相关。
注:一道题五个选项,答对得1分概率为1/5,答错扣0.25分概率为4/5,期望为0。
能力与题目难度异质性:首先,需构建能力和难度的衡量指标。传统方法采用Rasch项目反应模型,其本质是通过题目固定效应和个体固定效应来预测答题正确率的似然值。但这可能导致能力估计有偏误,作者未用此法。例如,若女生在选择题中表现较弱而在开放题中表现更优,则基于选择题的Rasch能力估计会系统性低估女生真实能力。
为规避此类偏差,作者整合了所有可获取的学业表现数据:既包含学生在校期间参加的八次模拟考试成绩,也纳入五个学科的专业GPA数据。学科GPA由至少两次包含开放题的考试成绩加权得出,由于这些考试不设倒扣分机制,其成绩受学生自信心或风险规避倾向的影响较小。相比之下,实验中的模拟考试存在倒扣分规则,其总分可能同时反映能力与风险规避倾向,因此作为能力指标存在复杂性。在标准化分数以及控制了GPA指标和八次模拟考试指标差异(虚拟变量)后,个体固定效应被视为能力的代理指标。而难度的代理指标则是问题固定效应。
Figure 2展示了不同难度题目回答正确率的分布情况。无论能力高低,题目正确率均随难度上升而下降。值得注意的是,两组曲线差异在中等难度区间达到最大值——这一现象符合认知逻辑,因为极简单或极困难题目本就不受答题时长影响。
Figure 3显示这一规律具有跨性别普适性,但男性峰值对应的题目难度水平普遍高于女性。这表明当题目难度与学生能力形成适度挑战(而非难以企及)时,时间因素能产生最显著的影响效果。
03
模型
环境:作者构建了理性决策者在有限时间的考试中求解多项选择题的模型。对于每道题,理性的学生需要选择答题或不答题(跳过)。如果选择答题,他需要在有限的选项中选择正确的一项,答错则会被扣分。扣分惩罚是精算公平的,即如果考生随机选择一个选项,那么答题的预期得分为0。
决策过程:本文假定学生面临一道题目的K个选项时,会观测到K维的信号。信号越高,该选择是正确的可能性更高。假定信号服从帕累托分布,错误选项与正确选项服从的分布在形状上不同(形状参数不同),错误选项均服从相同形状的帕累托分布。利用贝叶斯规则,可以得到已知K维信号下答对题目的概率。对比答题的预期得分和不答题的预期得分,最终可以得到一个阈值参数。作者称之为确定性阈值,这是学生决定是否作答的概率临界值。具体而言,当最佳选项(即具有最强信号的选项)正确的概率超过该阈值时,学生才会作答。该阈值参数取决于效用函数的凹性,反映了信心/风险规避程度。阈值随每道试题的作答时间而变化。鉴于风险厌恶是结构性参数且不太可能受时间约束影响,作者认为观察到的阈值随答题时间变化主要源于信心水平的变化。
时间约束:为了反映时间约束的影响,作者构建了一个生产函数,投入是做题时间、个人能力以及题目难度,而产出是不同性别区分正误选项的能力(错误选项分布的形状参数)。该模型允许区分正误的能力与个人能力正相关,与题目难度负相关。而(每道题)做题时间产生的效应会随个人能力与题目难度的差距而不同,从而捕捉实证中的发现:对于学生能力范围内的题目,时间因素会产生更为显著的影响。(潜在假定了每道题所用时间下标为个人,而与题目不是直接相关的)。
识别与估计
04
作者首先假定了学生将时间均匀分配至每道题上面。为了匹配实证中发现的pattern(比如,高低能力组学生的处理效应在题目难度上呈驼峰状分布),作者将题目按难度分为五个分位组,进而分别计算(5个难度分位组)×(高/低能力2组)×(实验/对照组2组)条件下答题正确率与跳过率(2个指标),最终为每个性别生成5×8维的矩量矩阵。这是目标矩。
作者展示了估计系数结果以及模型与数据匹配情况之后,还进行了反事实分析,即如果时间额外增加,模型预测到的不同性别正确率会提高,跳过率会降低,这与实验中对照组和实验组的观测到的数据吻合。模型预测的低能力组和高能力组在面临低中高难度的题目时的得分与实验中观测数据也吻合。
05
考试设计与筛选
考试的核心目标在于对考生进行能力排序。作者采用能力与成绩排名的秩相关系数作为区分效度的衡量指标,因为排序的本质在于依据能力对学生分级,而非简单考察能力与分数的相关性。值得注意的是,考试形式会因其筛选目标群体的不同而存在显著差异,比如数学竞赛和SAT的设计是不同的。
核心结论的驱动机制:如Figure 8所示,当试题难度区间(如图标注)与学生能力分布区间大致重合时,考试能实现最优区分。若难度下移,仅能有效区分低能力端学生,而高能力者普遍表现优异导致其内部难以区分。反之亦然。能力分布变化时也同理。由于时间压力增强等效于试题难度相对提升或学生能力相对下降,其影响机理与此类同。
题目数量:Figure 9 题量与排序效度的关系呈现边际递减特征:随着题目数量增加,能力-分数的秩相关系数(排序效度)呈上升趋势,但增长幅度逐渐减缓,符合考试长度的收益递减规律。其次,当考试较为简单时,高压环境下的排序效果优于低压环境;但当考试难度较大时,这一关系发生逆转。值得注意的是,困难考试的排序效果整体较差。最后,男性和女性的结果呈现相似规律但存在细微差异。无论性别,排序相关系数均随问题数量增加而上升,但在困难考试中高压条件下的排序质量持续偏低。值得注意的是,男性在高/低压环境下的表现差异更为显著,这表明时间因素对高难度考试的影响更大,且这种影响在男性群体中尤为突出。
不同时间压力的影响:首先,时间充裕度与排序效度呈正向关系,降低时间压力能显著提升全体考生的能力区分效果,这一结论在男女分组分析中均成立。研究特别发现性别差异化响应——男性在延长考试时间后正确率提升更显著(如无惩罚条件下男性提升12.7% vs女性7.0%),而女性对惩罚机制更敏感,其跳过率降幅更为明显。时间红利的分配存在能力梯度:低能力考生主要在中低难度题目获益,高能力者则能攻克更高难度题目。针对实际考试中题目难度左偏的问题,研究通过难度谱系平移(简单题左移0.2分,难题右移0.7分)构建更均衡的评估体系。
不同的扣分机制:Table 6报告了在不同扣分机制及实验条件下,答题正确率、跳过率以及总得分的模拟结果。效用函数为CARA,并通过方程反推出与估计临界值相对应的风险厌恶系数。基于该系数,我们计算了不同惩罚机制下的确定性临界值。作者对比了无惩罚、0.25惩罚和0.5惩罚三种机制在对照组与实验组中的表现。研究发现,随着错题惩罚力度的加重,学生答题正确率下降,总得分降低,且跳过题目数量增加。由于男性临界值低于女性,且其时间权重系数更高(意味着他们能从额外时间中获得更大收益),男性在时间增量中获益更多。此外,当错误答案惩罚力度加大时,男性得分损失略低于女性。
总结
06
本文通过构建结构模型与田野实验相结合的实证框架,系统研究了时间压力对多选题考试表现的影响机制。研究聚焦于时间约束如何通过信号精度(即学生答题时的判断准确性)和信心水平作用于成绩,并揭示学生能力、题目难度与性别之间的动态交互效应。作者创新性地将风险偏好(作为恒定参数)与信心水平(随时间压力变化)分离,发现额外时间主要通过提升信号精度改善成绩,但这种增益并非均匀分布:当题目难度与学生能力相匹配时,时间带来的提升效果最大;相反,过于简单或困难的题目增益有限。这一发现为优化考试设计提供了关键洞见——精准匹配题目难度与学生能力水平可能比单纯延长考试时间更有效。
研究进一步挑战了教育领域长期存在的性别差异假设。尽管男性和女性的成绩均随时间增加而提升,但男性获益更多,其根本原因并非传统文献中强调的风险偏好或信心差异,而在于性别间“信号生产函数”的显著不同——即男性和女性将时间转化为信号质量(答题准确度)的内在机制存在差异。值得注意的是,模型估计显示,在控制信号生产函数差异后,性别间的风险偏好并无统计学显著区别。这一结论颠覆了“女性更风险厌恶或更不自信”的刻板印象,提示教育政策应更关注能力培养机制而非基于性别的先验假设。
在考试设计层面,研究揭示了筛选效率(sorting ability)与题目难度、时间压力之间的非单调关系,并指出负向评分规则(negative marking)在高时间压力环境下能显著提升筛选效果。这些发现为考试制度的科学优化提供了实证依据:例如,在高风险考试中引入负向评分可能更有利于区分学生能力层次,而盲目增加考试时间或调整题目难度未必能达到预期目标。此外,作者承认模型存在简化假设——如默认学生平均分配时间,未能捕捉个体动态调整时间的策略行为。尽管受限于纸质考试无法获取每题耗时数据,但作者推测允许内生时间分配(如边际收益均衡)可能进一步丰富模型预测,尤其强化“学生倾向于在能力范围内题目投入更多时间”的行为模式。
研究的学术贡献超越教育领域,其方法论框架展现出跨学科应用潜力。例如,医疗诊断可被重构为医生在时间压力下通过信号(症状)识别疾病的过程,借此分析时间约束、专业经验与认知偏差对诊断质量的影响;保险市场中的风险分类机制亦可类比学生答题过程,为企业定价策略提供新分析视角。这种结构模型与实证数据的结合范式,相较于传统研究方法,更擅长解析个体决策的微观机制与宏观制度设计的互动关系。未来研究可沿两条路径拓展:一是深化教育场景中的低风险考试分析,探究学生努力成本对表现的影响;二是将框架延伸至其他需在约束条件下优化决策的领域,为医疗、金融等行业的政策设计提供更精细化的工具支持。。
推文作者:孙圳,北大国发院研究生。欢迎留言批评指正。
Abstract
Exams are designed to rank students objectively by their abilities, including elements such as time limits, the number and difficulty of questions, and negative marking policies. Using data from a labin-field experiment, we develop and estimate a model of student behavior in multiple-choice exams that incorporates the effects of time constraints and use it to conduct policy analyses for designing more efficient exams in sorting students. We find that additional time benefits men more than women. Our estimated model shows that this is driven by gender differences in the signal production function for the correct answers. Time has a smaller impact on women, while ability and difficulty play a larger role. Risk aversion, in contrast to what is suggested in the literature, does not differ significantly by gender, and confidence rises with more time. Our policy experiments find that exams more effectively rank students when ranking is gender-specific and that time pressure, question difficulty, and student ability have non-monotonic effects on sorting.
声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。
0
推荐