
图片来源:百度
原文信息:
Yang Alex J, 2025. “Text vs. citations: A comparative analysis of breakthrough and disruption metrics in patent innovation.” Research Policy, 54(8): 105295.
创新的相关研究层出不穷,如何科学准确地评估一项技术或专利的真正价值,是政产学研面临的共同挑战。随着“突破”和“颠覆”成为创新领域的关注焦点,它们究竟有何不同?又该如何量化?“文本相似度显示这是前所未有的创新,但它的引用结构并未破坏现有知识网络,更像是已有路径的延伸”,这种争论的背后是评估技术创新时一直面临的两难困境。本文认为判断一项技术是“突破”还是“颠覆”,取决于使用文本分析(KI指数)还是引用网络(CD指数)。
01
为何需要新的创新测度指标?
创新作为经济增长和产业转型的核心动力,其测度一直是学界研究的焦点。传统观点认为,并非所有专利都具有相同的价值,具有真正价值的创新呈现两类典型特征:一是突破性创新,即提出一个具有高度原创性的新方向,为未来技术提供全新的路径;二是颠覆性创新,即彻底改变既有技术体系,使原有技术迅速过时。传统的创新测度依赖专利被引次数、技术领域跨度、新颖性指标以及技术组合独特性,仅能捕捉创新的新颖性或影响力,事前捕捉专利申请时的原创性,事后则衡量专利申请后的影响力。
然而,这些传统方法存在明显的局限性:一是缺乏动态视角,很多指标需要等待多年才能计算“未来影响”,无法及时识别刚出现的新技术;二是依赖引文数据,专利引用行为会随专利法、引用习惯和审查流程的变化而产生系统性偏差。真正的变革创新需同时具备高度的原创性和深远的影响力,而现有指标很难将两者动态结合。动态评估专利如何促进知识演进仍具有挑战性,需整合事前新颖性和事后影响力,构建动态连接专利起源与未来贡献的指标。
上述局限性催生了新一代测度方法的出现,基于文本的突破指数(KI index)和基于引用的颠覆指数(CD index)试图同时捕捉新颖性和影响力。KI指数由Kelly等(2021)提出,利用自然语言处理(NLP)评估专利的新颖性(与先前专利的文本相似度低)和影响力(与未来专利的文本高度相似度),通过文本分析衡量突破性创新。Funk和Owen-Smith(2017)提出的CD指数通过分析专利如何改变引用模式,取代后续引用中的旧技术。
本文基于1980—2017年600多万项专利申请的数据集,全面比较了KI和CD指数的共性与差异,阐明它们在衡量突破和颠覆创新中的独特作用,解开创新测度的双重困境。研究结果显示,这两个指数都能有效识别变革性的技术突破,高分专利往往源自原创且聚焦狭窄的知识基础。关键区别在于:①KI指数随经济周期波动,而CD指数呈稳步下降;②KI指数与未来专利引用影响正相关,而CD指数呈U型关系;③小型和远程团队往往获得KI分数较高但CD分数较低的专利,可能由于更大的团队引用更新、更流行的参考文献。这些发现有助于理解基于文本和引用指标的互补优势,更好地选择合适的创新测度工具。
02
文本VS引用:两种方法的测度逻辑
2.1KI指数:基于文本的全球视野
KI指数的核心思想:一个突破性的专利,其文本描述应当与过去的专利大相径庭(高新颖性),同时又被未来的技术文献高度模仿和追随(高影响力)。
新颖性:焦点专利与未来5年内所有专利的文本相似度(越低越好);
影响力:焦点专利与过去5年内所有专利的文本相似度(越高越好);
最终得分:KI = ln(未来相似度之和/过去相似度之和)。得分越高,说明该专利使用的语言概念更呈现“前无古人、后有来者”的特征,越具有突破性。
2.2CD指数:基于引用的局部网络
CD指数则采用了完全不同的逻辑框架。它从知识网络的结构变革出发,衡量一项发明是巩固了现有的知识流动模式,还是从根本上破坏了这种模式。如果未来的发明在引用你的专利时,不再引用你的“祖先”(即你引用的专利),说明你的专利成功替代了旧技术,构成了颠覆;反之,如果后来的发明在引用你的同时依然引用你的祖先,说明你的专利只是在现有基础上添砖加瓦,起到了巩固作用。CD指数的取值范围在-1到1之间,越接近1代表颠覆性越强,越接近-1代表巩固性越强。
CD指数的构建逻辑:从引用的结构网络出发,聚焦一个专利的“小圈子”——它的直接前辈(被引用的专利)和直接后代(引用它的专利),衡量一项发明是巩固现有的知识流动模式,还是从根本上破坏了这种模式。
颠覆性:若一个专利P被后续专利C引用,而C不再引用P所引用的那些前辈专利,说明专利P成功替代了旧技术,具有“颠覆性”。因为它让后来者绕过了旧知识,直接站在P的肩膀上。
巩固性:若专利C在引用专利P的同时,依然引用P所引用的那些前辈专利,说明专利P强化了已有的知识链条,呈现“巩固性”。
03
研究设计
利用美国专利商标局(USPTO)和PatentsView提供的全文及引用海量数据。USPTO专利数据集包含1976—2022年的7,566,869项专利和117,308,691次引用。本文聚焦于实用新型专利,因其新颖性更高且颁发标准更严格。
数据范围:涵盖1980—2017年申请的超过638万项实用新型专利。
时间窗口:统一采用5年前向和5年后向的时间窗口来计算KI和CD指数,确保可比性。若扩展到更长的时间窗口(如10年),因为相关专利在较长时间内稀少,可能降低文本相似性计算的信息量。
分析方法:首先,通过描述性统计和相关性分析,检验两个指标的一致性和有效性;其次,深入探究它们在时间趋势、专利影响力的关联以及与研发团队特征(规模、地理距离)等方面的表现差异;最后,通过回归模型和中介效应分析,探讨造成这些差异的潜在机制。
04
主要发现
本研究得出三大核心发现,揭示了KI和CD指数既协同又分化的复杂关系。
4.1两者都能有效识别突破创新,但时间趋势截然相反
相同:无论是专家选定的技术专利,还是专利本身的原创性(如引入新的CPC分类号)和知识基础(窄领域的专业化),KI与CD之间相关性极高。说明真正的创新既有突破性,也会带来某种程度的颠覆。
不同:CD指数呈现长期、稳定的下降趋势,这与近年来关于“颠覆性创新正在衰落”的广泛讨论相呼应。KI指数则没有下降,反而随经济周期波动。
4.2两者与专利影响力的关系模式完全不同
KI指数与未来引用呈线性正相关。KI值越高的专利,其获得的引用次数越多。表明在文本上能引领未来技术方向的专利,在实践中也获得了广泛的认可。
CD指数与未来引用呈U型关系。极端值(无论是极高还是极低)的专利更容易获得高引用。低CD(巩固者)之所以被高引用,很可能由于其在现有主流技术路线上做出了关键性的改进,成为了该领域的基石。
4.3团队特征对两者的影响方向相反
小团队vs大团队:小团队生产的专利CD指数更高,符合“小团队更颠覆”的经典认知,但大团队生产的专利KI指数反而更高。
本地团队vs远程团队:远程团队(地理上分散)生产的专利KI指数更高,而本地团队(集中办公)生产的专利CD指数更高。
为什么大而散的团队能产出文本上更具前瞻性的专利,但在引用网络中却显得不那么“颠覆”?本文给出一个合理的解释:参考文献(即后向引用)。KI指数与参考文献的年龄(越老越好)和流行度(越不流行越好)正相关。意味着KI高的专利更倾向于回溯源头性的、冷门的知识,从而在文本上展现出更强的原创性和前沿性。CD指数则恰恰相反,它与更新、更流行的参考文献正相关。
由于大团队大多引用那些更新、更广为人知的参考文献,这种引用策略导致了两个结果:因为引用了前沿的、热门的知识,其专利文本更容易与未来的创新产生共鸣,从而推高了KI指数。正因为其奠基在“流行”的知识之上,后续的研究者在引用它时,有很大概率也会同时引用那些同样流行的前辈专利,从而拉低了CD指数。简而言之,大团队善于站在“巨人”的肩膀上,并快速融入主流话语体系(高KI),但这也使其更像是对现有范式的完善,而非彻底的革命(低CD)。

05
KI与CD指数的关系:互补而非替代
本文比较两种不同的创新测度动态指标——基于文本的KI指数(衡量突破性创新)和基于引用的CD指数(衡量颠覆性创新),发现两者都能识别变革性专利,但采用不同的方法:KI指数分析专利全文以评估突破潜力,而CD指数通过引用结构评估颠覆性。表1显示,每个指标既有优势也有局限性,其关键区别在于它们的时间趋势变化。
总体而言,KI指数和CD指数为技术突破提供了互补的洞见。KI指数是一个全局性、内容驱动的指标,利用文本提供广泛的专利创新衡量标准;CD指数是一个局部性、结构驱动的指标,识别专利引用网络的局部干扰。未来的研究有望整合这两类指标,以开发更全面的突破性和颠覆性创新衡量方法。
06
KI指数与CD指数:如何选择?
6.1不同场景
识别早期突破用KI:刚出现的技术因引文数据不完整、文本相似度更可靠,KI指数可以更早发现可能成为“未来热点”的技术群。如生成式AI、新能源材料、合成生物学方向。
监测技术替代用CD:CD指数更适合作为技术范式转移的指标、技术替换事件的早期信号及行业生命周期预测工具。如光伏技术路线替换、电池技术的正负极材料替换。
创新政策分析:在国家创新战略布局中,可分别关注:KI指数—早期宽口径的创新投入、CD指数—结构性变革技术。
6.2不同群体
研究人员:需根据研究问题选择合适的创新测度工具。若研究技术内容的演进和宏观创新趋势,KI指数是最佳选择;若探究特定领域内知识网络的结构变迁,则CD指数更合适。在理想情况下,两者结合能提供更全面的创新信息。
政策制定者:不要迷信单一指标,高引用、高CD或高KI只代表了创新的一个侧面;关注经济周期的影响,经济下行期可能是投资和支持探索式创新的最佳时机。
企业管理者:支持多元化的创新生态,既要鼓励小团队进行高风险的颠覆性探索(高CD),也要认识到大团队在整合前沿知识、推动技术主流化(高KI)方面的独特价值。
本文巧妙对比基于文本信息的突破性创新(KI指数)与基于引用网络的颠覆性创新(CD指数)两大创新测度指标,揭示二者虽高度互补,却在经济周期敏感性、团队结构关联及影响力模式上呈现系统性差异,为理解技术突破与颠覆提供了多维视角。但本文仅关注基于专利的创新,这些创新可能无法完全捕捉非专利创新的潜力。两个指数测度都是动态的,未来研究有望探索它们随时间演变的模式,超越创新的二元视角。
推文作者:陈梁,江西财经大学统计与数据科学学院、国势研究院。推文内容若存在错误与疏漏,欢迎批评指正!
Abstract
This study examines two dynamic metrics for assessing technological innovation— the text-based breakthrough index (KI index) and the citation-based disruption index (CD index)—both of which integrate ex-ante (novelty) and ex-post (impact) information. The KI index identifies breakthrough inventions by measuring their novelty (low similarity to prior patents) and impact (high similarity to future patents), whereas the CD index quantifies technological disruption by analyzing shifts in citation patterns. Using a dataset of over six million patents filed with the USPTO between 1980 and 2017, this paper finds that KI and CD indices are highly correlated and both effectively capture technological breakthroughs. Patents with high KI or CD scores typically originate from original and narrowly focused knowledge bases. However, the two indices exhibit distinct patterns: (1) the KI index fluctuates with economic cycles, while the CD index has experienced a steady decline over time; (2) the KI index positively correlates with future patent citation impact, whereas the CD index follows a U-shaped relationship with patent citation impact; and (3) small and remote teams produce higher KI but lower CD scores, potentially because larger teams cite newer, widely recognized references. I discuss innovation concepts—breakthroughs, disruptions, and beyond—to contextualize these findings and explore their implications for understanding technological advancement. These results contribute to the discourse on measuring innovation and underscore the complementary strengths of text-based and citation-based approaches in assessing technological progress.
声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。
0
推荐


京公网安备 11010502034662号 