财新传媒 财新传媒

阅读:0
听报道

原文信息: 

Shakked Noy, Whitney Zhang. Experimental evidence on the productivity effects of generative artificial intelligence. Science 381 (2023), 187-192.

图片来源:By Marcin Frąckiewicz

01

引言

ChatGPT风靡全球之际,对于广大文字工作者来说,一个最直接的问题是:ChatGPT能提升我们的写作效率吗?两位MIT的博士生最近发表于Science上的文章使用在线实验的方法回答了这一问题。结论如下:ChatGPT能大幅提高我们的写作效率,平均而言,写作时间可节约40%,输出质量可提高18%;ChatGPT可部分拉平能力差距,降低不平等程度;ChatGPT的影响具有持续性,实验结束后两周,处理组继续使用它的概率是控制组的两倍。该研究为ChatGPT对生产率的影响提供了一个参照。

02

方法

作者在Prolific网站上招募了453名有工作经验、受过大学教育的受试者,并分配给每人两项与职业相关的写作任务。受试者的职业背景相当多样,包括市场营销人员、撰稿人、顾问、数据分析师和HR等;任务内容则囊括撰写新闻稿、简报、分析计划和电子邮件等,平均每项任务耗时20-30分钟,以尽量模拟受试者在现实工作中可能出现的场景。

受试者随机平均分为两组。处理组注册ChatGPT 3.5,控制组则注册LaTeX在线编译器Overleaf,以控制实验进入难度。两组受试者的第一次任务均不使用ChatGPT,第二次任务则仅允许处理组使用ChatGPT。每份任务成果交由三位专业人士打分,取其均值衡量任务完成质量。

下表展示了处理组与控制组的描述统计与组间差异,除就业率和是否为HR两个指标存在显著差异外,其他指标在统计上都是平衡的。 

03

结果 

作者首先分析了ChatGPT对写作时间和写作质量的影响。如下图所示,在第一次任务中,两组的任务完成时间和完成质量都基本相同,不存在差异;而当处理组在第二次任务中引入ChatGPT后,任务时间和完成质量都出现了明显的分化。处理组的任务时间下降了11分钟,考虑到控制组的平均任务时间为27分钟,这一降幅高达40%;处理组的完成质量上升了0.41个标准差,增幅约为18%。

作者也查看了ChatGPT对于成绩分布的影响影响。可以发现处理组的任务完成时间分布明显向左便宜,而完成质量则明显向右偏移。这进一步验证了ChatGPT对写作效率的提升作用,且对不同能力群体的作用存在异质性。

作者以未使用ChatGPT时的第一次写作成绩衡量受试者的能力,以分析其对不平等的影响。下图中的横轴为第一次写作成绩,纵轴为第二次写作成绩。可以发现,第二次写作成绩的斜率明显小于第一次,表明在引入ChatGPT之后,受试者们的能力差距显著缩小。横向对比可以发现,缩小的差距主要来成绩在4分及以下的低能力受试者,但对高能力者影响有限。 

ChatGPT对任务质量的提升作用主要体现在低能力者上,但对写作时间的提升却是全方位的。下图显示,无论是哪个能力层次的受试者,使用ChatGPT后,其写作时间都可以降低约10分钟。 

此外,作者还分析了ChatGPT对主观态度的影响。使用ChatGPT后,处理组的工作满意度相较于控制组提高了0.47个标准差,自我效能则提高了0.19个标准差,考虑到两个指标已经过标准化处理(SD=1),这意味着处理组的工作满意度和自我效能分别提高了47%和19%。

作者还分析了使用ChatGPT对自动化态度的影响,如下图所示,虽然有少部分人表达了对自动化的担忧,但大部分人都呈总体乐观的态度。 

最后,作者还在两周和两个月后对受试者们进行了回访。结果发现两周后处理组继续在办公中使用ChatGPT的概率是控制组的两倍;两个月后,这一数字依然维持在1.6倍。说明使用ChatGPT一时爽,一直使用一直爽。

04 

讨论

作者使用实验性的证据,证实了ChatGPT对生产效率的巨大提升作用。与实验场景下解决确定性问题不同的是,现实世界我们更多面临的是非确定性问题,有时候自己都没有一个明确目标。用过ChatGPT的同仁就知道,我们给的提示词(prompts)越准确,它给的回答也越靠谱;我们给的提示词越模糊,它也会跟我们打太极。但毫无疑问的是,ChatGPT对现实世界的影响力是巨大而深刻的,且随着它的升级,其影响力还会进一步提升。

Abstract 

We examined the productivity effects of a generative artificial intelligence (AI) technology, the assistive chatbot ChatGPT, in the context of midlevel professional writing tasks. In a preregistered online experiment, we assigned occupation-specific, incentivized writing tasks to 453 college-educated professionals and randomly exposed half of them to ChatGPT. Our results show that ChatGPT substantially raised productivity: The average time taken decreased by 40% and output quality rose by 18%. Inequality between workers decreased, and concern and excitement about AI temporarily rose. Workers exposed to ChatGPT during the experiment were 2 times as likely to report using it in their real job 2 weeks after the experiment and 1.6 times as likely 2 months after the experiment.

声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。

 

话题:



0

推荐

香樟经济学术圈

香樟经济学术圈

1553篇文章 7小时前更新

香樟经济学术圈由中国社科院、哈佛大学、多伦多大学等国内外青年经济学者发起。此平台主要推送国外经济学领域经典前沿论文,发布国内外经济学相关资讯,以及香樟经济学者圈的相关活动公告。 期待能够对中国经济学研究和国家政策产生一定影响。微信订阅号:camphor2014。

文章