
图片来源:GPT-5 mini
文献引用:Ryan R. Hill and Carolyn Stein, “How Artificial Intelligence Shapes Science: Evidence from AlphaFold,” NBER Working Paper 35143 (2026),
01
引言
前段时间 ClaudeCode、Cursor 全流程科研 workflow 爆火,AI科研项目动辄30天产出上百篇working paper,让不少科研人陷入焦虑:AI 究竟会不会替代人类做科研?最新一期 NBER working paper 提供了第一个相关的实证研究———当一个领域级别的AI shock降临时,会对该领域的科学家产生什么影响。
这个案例就是 AlphaFold2 对结构生物学的冲击。结构生物学的核心任务之一,就是解析蛋白质的三维结构——而解一个蛋白结构通常需要数十名研究者、上百万经费、数月到数年时间。2021年7月,AlphaFold2开源代码并免费发布数十万个AI预测的蛋白结构,且完全不需要研究者进行实验。
本文的主要发现包括:
1. AI没有替代结构生物学家的实验工作——AlphaFold发布后,PDB实验结构数量没下降,顶刊发表稳定,研究者还在持续启动新实验。
2. AI辅助了实验科学家的工作——以前因为缺乏相似实验结构而无法做MR的蛋白,现在可以用AlphaFold预测作为模板完成解析。
3. AI刺激了下游的基础研究,但还未推动药物研发。之前没有结构信息的蛋白(“未解蛋白”),论文产出增长了 16-25%;相关药物研发的早期实验没有显著增加。
研究背景
02
2.1
背景知识
1.解蛋白实验
目前已知的蛋白序列(氨基酸排列)多达数亿个,但其中只有约13万个蛋白的3D结构(在空间中的折叠形态)被解析。即绝大多数已知蛋白至今仍属“未解蛋白”——序列已知,但结构未知。要搞清楚一个蛋白的3D结构,必须依赖解蛋白实验,而这类实验耗时长、成本高。
2.解蛋白实验的关键步骤:MR
解蛋白实验的最后一步叫 Molecular Replacement (MR),可以理解为“照葫芦画瓢”:找一个相似的已知结构作为“模板”,在它基础上微调匹配实验数据。这一步效率极高,但前提是必须存在相似的已知结构(相似度≥30%)。
3.AlphaFold2
2020年底,Google DeepMind推出AlphaFold2,2021年7月,开源代码并免费发布数十万个AI预测的蛋白3D结构,仅通过蛋白序列预测蛋白3D结构,精度极高,接近实验水平。
2.2
研究设计的优势
1.时机干净:2021年7月是一个明确的时间断点,且早于ChatGPT等AI浪潮(2022年底),不会被其他AI shock污染。
2.不可预期:AlphaFold1(2018年)的表现让业界普遍认为AI不能替代实验,AlphaFold2的表现出乎意料。
3.任务清晰:不像LLM那样模糊,AlphaFold2的自动化任务非常具体——预测蛋白3D结构。
4.足够重要:蛋白结构对生物医学至关重要,AlphaFold2因此获得2024年诺奖。
03
本文主要数据
3.1
PDB(Protein Data Bank)
全球最大的实验解析蛋白结构数据库,约25万条记录。每条记录包含蛋白3D结构、提交日期、关联论文等。本文用它测量实验科研产出——AlphaFold2发布后解蛋白实验数量是否减少?是否还在发顶刊?
3.2
SwissProt
UniProt旗下的人工审核蛋白百科数据库,约57万条记录。每条记录包含蛋白的氨基酸序列、生物学功能、关联文献等。本文用它测量下游基础研究产出——关于“未解蛋白”的论文有没有增加?通过UniProt ID,SwissProt可以与PDB对接,从而判断每个蛋白是否在AlphaFold2发布前已被实验解析。
3.3
ChEMBL
公共药物-蛋白结合实验数据库,约2400万条实验记录。每条实验记录的是先导化合物筛选(药物研发第二步)的实验过程。本文用它测量早期药物研发活动——AlphaFold2发布后,“未解蛋白”有没有更多被纳入药物筛选?
实证设计与结果
04
4.1
对于结构生物学本身
1. AI是否替代解蛋白实验
1)识别策略:
本文观察AlphaFold2发布前后两个指标的变化:(1) PDB新存档的解蛋白数量;(2) 发表解蛋白的论文数。如果AI替代了实验,这些指标应显著下降。
2)实证结果:
AlphaFold2发布前后,PDB中实验存档数量没有显著变化,论文数和顶刊发表数也保持稳定。说明AI并没有替代结构生物学家的工作。这也符合目前结构生物学界的认知:AlphaFold2存在置信度不准确、无法推演情境特异性等问题,尚未能替代人工实验。

2.AI是否辅助解蛋白实验
1)识别策略:
蛋白结构实验的最后一步需要寻找相似的蛋白作为模板,在此基础上进行微调(MR)。在AlphaFold2出现之前,模板只能从PDB中找——必须有实验解出的相似蛋白才能做MR,在AlphaFold之后,AI预测的结构也能当模板,即使PDB里没有相似蛋白,也能做MR。
作者按“是否有相似蛋白”将样本分两组:Has homolog(PDB中有≥30%相似度的蛋白)和No homolog(PDB中没有)。如果AlphaFold2真的扩展了“可做MR”的蛋白集合,No homolog组的MR使用率应在AlphaFold2发布后显著上升。
2)回归方程:

3)实证结果:
No homolog组在AlphaFold2发布后使用MR的概率显著提高,表明AI弥补了传统MR的模板限制——以往因缺乏相似实验结构而难以解析的蛋白,如今得以借助AI预测完成。

4.2
对于下游基础研究
1.识别策略:
在AlphaFold2发布前,绝大多数蛋白质(92%)的结构尚未被解析。AlphaFold2给那些“未解蛋白”(Unsolved)提供了结构信息,但并不会给“已解蛋白”(Solved)额外的信息,这在蛋白质层面形成了一个自然实验。如果AlphaFold2促进了下游研究,Unsolved组的研究产出应比Solved组显著增加。
2.回归方程:

3.实证结果:
AlphaFold2发布后,Unsolved组相关的下游研究比Solved组多增长16-25%,且除Phenotype外所有领域的基础研究都有所增加。这表明AlphaFold2不仅扩展了实验解析的边界,更通过填补结构信息空白,激发了对长期被忽视蛋白的下游研究。


4.3
对于药物研发
1.识别策略:
绝大多数药物通过结合蛋白target发挥作用,药物研发的第二步是测试候选小分子能否与蛋白结合(ChEMBL实验)。如果AlphaFold2加速了药物研发,应有更多Unsolved蛋白被纳入早期药物实验。 设计与4.2完全相同,唯一区别是被解释变量换成ChEMBL实验记录数。
2.实证结果:
ChEMBL实验记录没有显著变化,这说明AlphaFold2尚未推动早期药物研发。作者给出的解释是蛋白能否进入药物研发管线,前提是其功能与疾病关联已被充分研究。虽然AlphaFold2带来了海量结构,但相应的基础研究仍在追赶(Fig10(e)显示疾病相关研究正在显著增加)。药物研发的效应可能在未来显现,目前则受制于人类基础研究的进度。
05
结论
本文以AlphaFold2为切入点,首次系统性地实证检验了AI对科研发现的影响。 研究表明,AI对本领域研究者的工作更多是辅助而非替代,对下游基础研究有显著促进作用,但并未促进药物研发。但作者也在文中多次提醒,未出现替代只是当前状态,随着AI能力提升和研究者信任的建立,这种关系可能会完全不同。
AI对科研的影响是学界最关注的研究问题之一,但找到一个干净的identification setting极其困难——大多数AI冲击是渐进的、模糊的、和其他shock纠缠的。本文的精妙之处在于,AlphaFold2早于通用AI浪潮(规避同期AI冲击污染),自动化任务又非常具体(便于识别机制)。虽然结论难以直接外推到其他任务和学科——但本文为这个宏大问题提供了一个罕见的理想setting。
AI对科研的影响才刚刚开始显现。下一个5年,今天的“互补”是否会演变为“替代”?基础研究的浪潮何时能传导到应用创新?这些问题留待未来的研究继续解答。
PS:本文两位作者长期深耕结构生物学的经济学研究——2025年分别在QJE和JPE发表了关于科研竞争压力与发表优先权的两篇论文,同样以蛋白结构数据为empirical setting,都很值得一读。
推文作者:杨晨誉,中国人民大学经济学院,研究领域:创新经济学
Abstract
We study how a frontier AI model affects scientific discovery by examining the release of the AlphaFold2 algorithm and its impact on structural biology and related fields of science. Structural biology is the field of science concerned with understanding the structure and function of proteins. Researchers in this field historically devoted substantial time and resources to experimentally solving three-dimensional protein structures. AlphaFold can predict these structures without running experiments. In July 2021, researchers gained access to hundreds of thousands of these AI-predicted structures virtually overnight. Yet, to date, we find that the rate of experimental structure determination has remained almost unchanged. Instead, researchers appear to use predicted structures to facilitate and complement experimental structure determination. Looking at downstream science that builds on protein structures, we find that basic research on proteins that had no structure information prior to AlphaFold increases by 15 to 40% relative to proteins that already had a structure, shifting the direction of research toward less-studied proteins. However, we find no evidence so far that more applied, early-stage drug development is targeting these proteins, though such activity may emerge in the future.
声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。
0
推荐


京公网安备 11010502034662号 