老师少讲一点，学生会学得更多吗？-香樟经济学术圈的财新博客-财新网

图片来源：Unsplash

文章来源：Jakob, M., Büchel, K., Steffen, D., & Brunetti, A. (2026). Participatory teaching improves learning outcomes: Evidence from a field experiment in Tanzania. Journal of Development Economics, 181, 103742.

写在前面

每个人都在教室里坐过很多年，却很少有人追问，究竟是什么让一堂课真正发生了作用。是老师讲得足够多，还是学生想得足够深？是把知识一字不漏地灌进去，还是让孩子自己动手、开口、犯错再纠正？这些问题听上去像是教育学的常识，但放到全球范围内看，它们远未有定论。世界银行的数据显示，低收入国家只有约百分之四的学生在小学结束时具备最基本的读写能力，而在高收入国家，这一比例高达百分之九十五。横亘在中间的，不只是校舍和经费的差距，更是课堂里每一分钟被如何使用的差距。

今天笔者将分享一篇发表于Journal of Development Economics的论文。四位来自瑞士的学者在坦桑尼亚开展了一项覆盖两百二十所学校、四百四十名数学教师的随机对照实验，试图回答一个看似简单却始终缺乏严谨证据的问题，那就是在班级动辄五十人、教具极度匮乏的发展中国家课堂里，让老师从灌输式教学转向参与式教学，到底能不能提高学生的真实学习成绩。研究还顺带检验了两个被普遍寄予厚望的配套手段，一是用电脑帮老师补足学科知识，二是让受训教师把方法传授给同校同事，结果却给出了出人意料的答案。

研究背景

长期以来，关于如何改善发展中国家教育质量的讨论，大多围绕教师的激励机制展开，比如提高工资、引入绩效奖金、加强考核。这类研究数量较多，效果却时好时坏。一个被相对忽视的角度是，教师手中可用的教学方法本身是否有效。在许多中低收入国家，讲授和死记硬背仍是课堂的主流，学生被动地听、被动地记，很少有机会主动参与。高收入国家的大量证据表明，让学生积极投入的参与式教学更有利于学习，但这一结论能否照搬到资源匮乏、班级庞大的环境里，并不清楚。在那样的课堂上，组织小组讨论、动手操作和同伴互教，对教师的组织能力提出了更高要求，弄不好反而得不偿失。

与此同时，另一个需关注的是教师的学科知识问题。近年的研究发现，不少发展中国家的教师连他们要教的内容都掌握得不够扎实。如果学科知识确实是制约教学效果的瓶颈，那么先把老师自己的知识补齐，似乎是顺理成章的一步。问题在于，这种补课式的投入是否真能转化为学生成绩的提升，此前并没有可靠的因果证据。论文还关注了发展项目中常见的级联模式，也就是先培训少数骨干教师，再由他们把新方法扩散给同校其他老师，以较低的成本惠及更多学生。这种设计听上去很好，可它的溢出效应究竟有多大，同样值得用实验来检验。

实验设计

为了干净识别教学方法的因果效应，研究团队在坦桑尼亚北部三个尚未推行该项目的地区，选取了两百二十所公立小学，每校提名两名数学教师，一名作为目标教师可能接受培训，另一名作为同伴教师用于估计溢出。随后这些学校被随机分入三组。第一组只接受参与式教学法培训，第二组在教学法培训之外，额外获得一台预装可汗学院数学视频和测验软件的笔记本电脑，供教师自学补足学科知识，第三组作为对照不接受任何干预。培训本身是一个为期五天的在职工作坊，由在坦桑尼亚工作超过五十年的瑞士发展组织Helvetas实施，内容包括如何组织小组活动和同伴互教，如何把生活中的例子和游戏带进课堂，如何用木棍石子等随处可得的材料自制教具，并反复提醒老师，课堂上的每一个动作都应当是有意为之的选择。培训之后还安排了多次复训和持续的线上交流。

在衡量学生成绩时，作者没有自己另出一套考卷，而是直接抓取了坦桑尼亚国家考试委员会公布的全国标准化考试成绩，包括七年级的小学毕业考试和四年级的全国统考。这两类考试覆盖全体学生，关系到能否升学，由与项目毫无关联的官方机构命题和阅卷。使用这样的外部考试，既避免了研究者把考题悄悄向干预内容靠拢而夸大效果，也避免了实验组和对照组因为知道自己正被研究而在答题时格外用力或心不在焉。最终，研究得到一万余名七年级学生用于评估直接效果，以及一万五千余名四年级学生用于评估溢出效应。下图展示了整个实验的时间线和分组结构。

图1为实验的时间线与分组结构。坦桑尼亚的小学被随机分入纯教学法组、教学法加内容组和对照组，目标教师于2020年初接受为期五天的培训，学生成绩则通过2021年的全国统考来衡量。

参与式教学确实提升了学习成绩

研究结果显示，参与式教学培训提高了学生数学成绩。与对照组相比，接受培训教师所教学生在 18 个月后的数学考试中，标准化成绩提高0.128个标准差（见下表）。这个数字看起来不大，但放在教育干预研究中并不低。作者指出，这一效果处在既有数学教育随机实验效果分布的前 30% 左右。从等级结果看，培训使学生获得 A 或 B 等级的概率提高 4.8 个百分点。通过考试的概率也提高了 2.9个百分点，但在常规统计意义上并不显著。换句话说，这项培训更明显地推动了一部分学生向更高等级移动，而不是简单地把边缘学生推过及格线。无论是否加入一系列学生和学校层面的控制变量，处理组学生的标准化数学成绩和高等级概率都更高，且结果较为稳健。

表1 参与式教学培训对学生数学成绩的影响

下图直观地展示了这种提升。左图比较了实验组和对照组学生期末数学成绩的分布，可以看到实验组在低分段（E、D、C）的人数有所减少，而在高分段（B、A）明显增多，整条曲线向右移动。右图进一步给出各等级的平均边际效应，提升最集中、也最显著的正是B等级，提高了约4个百分点。值得一提的是，参与项目的数学教师平均还要教科学、社会、公民、斯瓦希里语等另外五门课，而培训传授的参与式方法并非数学专属。数据显示，这些方法也外溢到了其它科目，学生在数学之外科目的平均成绩同样有所提高，说明老师把课堂上学到的组织方式迁移到了别的课上。

图2为参与式教学对学生成绩的影响。左图为实验组与对照组期末数学成绩分布的对比，实验组整体右移；右图为各等级的平均边际效应，提升主要集中在B等级，竖线表示百分之九十的置信区间。

给老师配电脑补知识为何没有奏效

如果说第一个发现印证了直觉，那么第二个发现则出人意料。额外发放笔记本电脑、让老师用可汗学院软件自学补充学科知识的那一组，学生成绩并没有比只接受教学法培训的那一组更好，两者之间的差异微小且不显著。要理解这个零结果，需要回到教师本身。研究团队在干预前后分别给所有教师做了数学测验，结果显示，老师们在覆盖二到七年级内容的测试中平均答对了78%，目标教师更是高达81%。换句话说，这些坦桑尼亚教师在学科知识上并不像人们想象的那样薄弱，他们大多已经掌握了所要教授的内容，补课的边际空间本就有限。

下图呈现了培训对教师数学成绩的影响。可以看到，无论是整体数学水平还是分领域的知识，配备电脑那一组的提升都不大，置信区间大多跨过了零线。更细致的分析发现，只有那些起点最低的老师，知识水平确实因为软件而明显上升，可即便如此，这部分提升也没有传导到学生的成绩上。已有研究估计，教师学科知识每提高一个标准差，学生学习大约只增加0.09个标准差，这意味着要在学生层面看到可观的变化，对教师的提升必须大得惊人。而配备电脑使每名教师的成本上升了约四成。从项目评估的角度看，这笔额外的设备投入并没有换来相应的回报。

图3为培训对教师数学成绩的影响。左图为整体成绩，右图按知识领域细分。配备电脑与软件的教学法加内容组提升有限，多数估计的置信区间跨越零线。

给老师配电脑补知识为何没有奏效

第三个发现同样给乐观的预期泼了冷水。项目专门设计了级联机制，要求受训教师通过示范课和同伴学习小组，把新方法传授给同校其他老师，期望以此放大项目的覆盖面。从监测数据看，这些活动确实开展了，几乎所有目标教师都报告组织过示范课和学习小组，多数同伴教师也表示参加过，同伴教师自己的数学水平甚至有所提升。然而，当把目光转向这些同伴教师所教的四年级学生时，成绩的提升却小得可以忽略，在统计上并不显著。

为了排除观察期太短这一可能的解释，作者还利用项目正式实验之前、也就是2013到2019年的历史数据做了一项事件研究分析，这一时期恰好以级联方式推广，可以视为溢出效应的上限估计。下图给出了结果，处理前后各期的估计系数都紧贴零线上下，没有呈现出任何显著的趋势。这说明，即便给同伴教师更长的时间去消化和实践，知识的横向扩散依然没有转化为学生的进步。一个更合理的解释是，尽管级联活动照常进行，但同伴教师接触新方法的强度和深度，还不足以让他们真正重构自己的课堂。要让一名教师改变多年的教学习惯，蜻蜓点水式的传授恐怕远远不够。

图4为级联溢出效应的事件研究估计（2013至2019年）。无论以从未受训学校还是尚未受训学校作为对照，处理前后各期系数都在零线附近波动，未见显著溢出。

当事人的感受能否衡量项目的成效

论文最有趣的一个发现，或许与教学本身无关，而关乎我们该如何评判一个项目的好坏。在现实的发展实践中，严格的随机实验成本高昂，难以普及，更常见的做法是通过问卷和访谈，听取参与者自己的感受和评价。这项研究恰好提供了一面镜子，把当事人的主观判断和实验得出的真实因果效应放在一起对照，结果发人深省。对于真正有效的教学法培训，74%的受训教师强烈认同它提升了学生的数学成绩，这与实验结论一致。然而，对于那些实验证明并无显著效果的环节，参与者却给出了同样热烈的肯定。比如同伴教师本应只是间接受到影响，可竟有78%的同伴教师也强烈认同项目提升了学生成绩，比例甚至比直接受训的老师还要高。对于并未带来额外学生收益的电脑补课，老师们的评价同样一片叫好。

换句话说，参与者的自我评价几乎无法分辨项目中哪些部分真正起了作用，哪些只是看上去很好。无论有效还是无效，他们都倾向于给出正面的回答。这背后有两重原因，一是普通人很难凭空想象没有这个项目时会发生什么，于是容易把生活中的种种变化都归功于自己参加过的项目，二是出于礼貌和期待，受访者往往会顺着提问者希望听到的方向作答，尤其当他们相信评价结果会决定项目能否延续时。这一发现提醒我们，问卷和访谈固然能提供宝贵的细节和洞察，却并不适合用来判断一个项目到底有没有效，更不适合用来区分其中的成败得失。

结论

把这些发现汇总起来，这项教学法培训呈现出相当不错的性价比。项目的实施成本约为每名教师七百六十美元，分摊到每名学生约十四美元。据此估算，每投入一百美元，学生的数学成绩大约提高一个标准差的百分之一。这一水平在Kremer等人在2013年、以及Angrist等人在2025年整理的大量教育项目中都处于中上游，何况它还是一个保守的下限，因为它没有计入未来历届学生从同一位老师那里持续受益的部分，也没有计入哪怕微弱的同伴溢出。相比之下，额外配备电脑的那一组，由于成本上升却未带来更多成绩，性价比反而下降到每百美元零点五个标准差。

这篇论文给出的结论是清晰的。在班级庞大、资源紧张的发展中国家课堂里，仅仅花五天时间培训老师转向参与式教学，就能让学生在严苛的全国统考上取得可观且可持续的进步，而且这种以通用教学方法为核心的培训，还能把收益外溢到其它科目。与此同时，两条看似稳妥的捷径却没有走通。给老师配电脑补学科知识，在他们本就基本胜任的前提下收效甚微，寄望于骨干带动同伴的级联扩散，也没有产生可测量的溢出。教育投入的关键，似乎不在于给老师叠加多少额外的资源和设备，而在于改变他们在课堂上与学生互动的方式。

写在最后

我们常常以为，教育的差距是钱的差距，是校园、课本和电脑的差距。这项研究提醒我们，差距也藏在那些看不见的地方，藏在老师是站在讲台上自顾自地讲，还是俯下身来让每个孩子都开口、动手、思考。最廉价也最深刻的改变，有时不需要昂贵的设备，只需要一种不同的相处方式。

它也让我们对自己的判断多一分谦卑。当所有人都说一个项目好的时候，它未必真的好；当我们凭感觉断定某种投入有用的时候，证据可能给出相反的答案。无论是做教育，还是做其它任何关乎他人命运的事，愿意用严谨的方法去检验自己的善意，本身就是一种难得的清醒。

把课堂还给学生，把判断交给证据。或许，这正是这篇看似遥远的非洲教育实验，留给我们每个人的启示。

Abstract

While participatory teaching methods have been shown to be more successful than traditional rote learning in high-income countries, it is less clear if they can help address the learning crisis in low- and middle-income countries, where classes tend to be large and teachers have fewer resources at their disposal. Based on a field experiment with 440 teachers from 220 schools in Tanzania, we use official standardized student examinations to assess the impact of a pedagogy-centered intervention. A five-day in-service teacher training on participatory and practice-based methods improved students' test scores 18 months later by 0.13. The additional provision of laptops with a learning software allowing a random subset of teachers to refresh their content knowledge did not yield further learning gains for students. We also find limited evidence of spillover effects on indirectly exposed teachers and their students, even though knowledge-sharing activities were a key component of the program. Complementary findings from participant surveys and interviews suggest that the program was highly appreciated by different stakeholders, but that participants were unable to assess its impact along different dimensions, giving equally positive evaluations of its successful and its unsuccessful elements.

声明：推文仅代表文章原作者观点，以及推文作者的评论观点，并不代表香樟经济学术圈公众号平台的观点。

推文作者：严祥武，信阳师范大学商学院讲师。研究兴趣：要素差别化配置、环境与发展经济学、经济统计分析。

推文内容若存在错误与疏漏，欢迎批评指正！

话题：