图片来源:
阿里研究院
原文信息:
Li, Ning and Zhou, Huaikang and Deng, Wenming and Liu, Junyuan and Liu, Fengxian and Mikel-Hong, Kris, When Advanced AI Isn't Enough: Human Factors as Drivers of Success in Generative AI-Human Collaborations (February 26, 2024).
原文链接:
https://ssrn.com/abstract=4738829 http://dx.doi.org/10.2139/ssrn.4738829
01
引言
以ChatGPT等为代表的大型语言模型(LLMs)所引领的生成式人工智能的崛起,预示着新时代的来临。相较于传统为特定任务设计的AI,生成式AI带来了前所未有的灵活性和创造力,不仅极大地推动了工作任务的自动化进程,更通过自然语言处理和生成技术拓展了人机交互的领域。这种变革对各个层次的知识工作产生了直接且深远的影响,引发了人们对生成式AI在职场中角色的深入探索。有研究表明,以ChatGPT 4.0为例的生成式AI在多种创新任务上的表现已经超越了90%至99%的人类参与者。这充分展示了生成式AI在未来工作环境中,将成为人们不可或缺的合作伙伴。
然而,尽管这些生成式AI模型具备先进的能力,但仍需人类的指导和监督。这种对人类输入的内在需求使生成式AI不仅仅是工具,更是潜在的合作伙伴。因此,将生成式AI融入工作流程已成为专业劳动者获取竞争优势的核心策略。这种转变不仅是技术层面的升级,更为那些在传统工作中未得到充分认可的人们提供了展现潜力的新工具和助手。生成式AI技术的迅速进步正在重新定义人机交互的边界。一个关键的问题在于,AI与人类协作的结果更多地受到技术进步的影响,还是人类能力的影响?尽管ChatGPT 3.5在复杂认知任务中表现出一定的局限性,但其继任者ChatGPT 4.0在多项测试中取得了显著的进步。这种性能上的显著差异引发了一个重要的问题:在人工智能与人类交互的领域,结果主要是由AI技术进步决定的吗?
为了回答这个问题,清华大学经管学院的李宁教授团队开展了一项实证研究。该研究通过两个精心设计的随机控制实验,汇聚了近500名参与者的实验数据,旨在探讨人工智能模型的快速发展是否更多地影响了人工智能与人类合作的结果,还是人类合作者的能力得到了增强。这项研究对于理解人与生成式AI在协作中的互动对任务绩效的影响及其内在机制具有重要意义。
实验设计和研究方法
02
2.1 实验一
实验一探究了人类与生成式人工智能(AI)在专业任务中的交互动态。实验在受控制的行为实验室环境中进行,共有130名不同行业的工作专业人士和大学生参与。实验设计了多种任务,包括写求职信(评估说服性写作技能)、创建并解释新产品名称(测试创造性思维和市场洞察力)、制定团队冲突解决方案(评估人际和冲突解决能力)、设计包含AI的大学课程大纲(衡量教育中的创新思维),以全面评估参与者与AI协作的能力。
为了模拟真实工作环境中的激励机制,实验设置了奖励,以鼓励参与者全身心投入。实验前,参与者需完成一份调查问卷,收集包括个人信息、智商、AI使用经验和人格特质在内的个人数据。实验分为三个情景(如Figure 1):
情景一(SSSS):使用高级AI模型ChatGPT 4.0协助完成所有任务。
情景二(HWHW):先独立完成第一项任务,然后使用ChatGPT 3.5协助完成第二项任务,接着独立完成第三项任务,最后再次使用ChatGPT 3.5协助完成第四项任务。
情景三(WHWH):与情景二相反,从使用ChatGPT 3.5的AI开始,然后独立工作,如此交替。
其中情景一使用高级AI模型ChatGPT 4.0,而情景二和情景三则使用ChatGPT 3.5,以探究不同AI技术水平对人机协作效果的影响。这种实验设计保证了任务实现过程的多样性——四项任务中每一项都在三种不同的情景下展开:人类独立完成、与较不先进的AI(ChatGPT 3.5)协作,与更先进的AI(ChatGPT 4.0)合作。另外,这种设计也确保了每位参与者都能与AI互动,避免了参与者因不使用AI而产生的不满情绪或不参与而导致的有偏结果。
实验后,研究团队收集了参与者的任务输出内容和及其与生成性AI互动的日志文件,并通过在线评审团评估任务输出的质量、新颖性和实用性,每个任务输出由六名独立评审员评分。参与者在实验后还填写了后续调查问卷,以了解人类-AI协作的心理感知影响。
2.2 实验二
实验二旨在研究对人类进行人机协作培训的影响,特别是关注通过培训提高人类使用AI的能力,是否能够弥补使用较不先进AI技术的局限性。
实验二招募了326名不同背景的参与者,并设置了奖励机制,以确保参与者积极投入实验过程中。实验二设计了两个任务:一是要求参与者为一家连锁餐厅面临的公共危机设计创新解决方案,二是为一个产品开发新的营销活动,考察参与者的创意思维和营销知识。实验二在三个情景中进行(如Figure 2):
情景一(ChatGPT+Training):参与者在使用AI协作完成两项任务前接受一小时的AI使用培训。
情景二(ChatGPT Only):参与者直接使用AI完成任务,没有任何预先培训。
情景三(Human):不使用任何AI帮助,参与者独立完成任务。
其中,AI培训主要是帮助参与者理解人类和AI在协作环境中的角色和作用,提高他们更有效地将人类创造性思维与AI分析能力之间进行协作的能力。参与者观看学习提前录制好的培训视频,从而掌握人机协作的方式和技巧。
326名参与者随机分配到不同的情景中。在完成初始任务后,参与者填写了后续调查问卷,以了解他们对AI的态度。并且,在所有涉及AI的条件中,参与者随机分配使用高级模型(GPT-4.0)以及较不高级模型(GPT-3.5)。此外,对于第二和第三个情景,引入了独特的追加实验,为最初未接受培训的参与者(ChatGPT Only和Human组)提供了培训,并创建了两个新的后续任务(如Figure 2),以检验不同任务参与顺序对人机协作效果的影响。
实验结束后,由不同公司的危机管理和产品营销活动策略专家组成的评审团为每位参与者的任务结果进行评分。
03
实验结果分析
3.1 描述性统计与结果分析
对于实验一,研究团队首先进行了方差分析(ANOVA),检验了三个实验情景(HWHW、WHWH、SSSS)之间的人口统计特征,未发现显著差异,确认了随机实验的有效性。然后,研究团队对实验收集的数据进行了统计学分析,研究结果一方面支持了先前的发现,即和独立完成任务的对照组相比,与生成式人工智能合作可以显著参与者在任务整体质量(Overall)、新颖性(Novelty)和实用性(Usefullness)方面的表现。另一方面,对于人工智能技术在提升工作绩效方面的作用,研究发现,与常规思维相反,当人与人工智能携手合作时,那些在技术上更先进的AI模型,例如ChatGPT 3.5向ChatGPT 4.0的飞跃,并没有表现出预期中的优势(如Figure 3)。虽然ChatGPT 4.0在各种标准化测试的较量中可能会胜过它的前身,但当涉及到与人类共同完成任务时,它的技术优势却似乎黯然失色。更具体地说,这种所谓的高级AI对成绩的提升只是微不足道的不到2%。这一发现对于那种认为拥有更先进工具自然能在专业领域带来更大优势的旧有看法提出了质疑。
对于实验二,与实验一相似,ANOVA分析未发现不同组别参与者在人口统计特征上的显著差异,确保了随机性。对实验结果数据分析发现,在ChatGPT Only和ChatGPT+Training情景下的参与者在所有测量维度上(整体任务质量、新颖性、实用性)的表现优于独立完成任务的参与者(Human情景)。特别是ChatGPT+Training在三个情景中得分最高(如Figure 4)。
此外,实验一和实验二还发现,在不同百分位数(25th、50th、75th)的任务表现分析中,AI对个体任务表现的积极影响在25th百分位数上更为显著,随着百分位数的提高,AI带来的任务表现提升逐渐减少。表明AI对最初任务表现水平较低的个体提升效果更明显。
3.2 实证分析
研究团队进一步使用最小二乘回归(OLS)分析了两个实验的回归结果,在回归中,控制了人口统计信息、AI使用频率和特定任务类型的固定效应。
在实验一中,研究团队深入分析了生成式AI对任务执行表现的影响,发现使用AI能够在多个维度上显著提升参与者的任务表现。具体来说,当AI被应用于任务执行时,不仅整体质量得到显著提高,而且在新颖性和实用性这两个关键维度上也表现出积极影响。这些提升在统计模型中得到了体现,AI的贡献显著,其对模型的解释力(R平方值)远超过人类因素,如智商(IQ)和教育水平,这突出了AI在任务执行中的关键作用(如Table 2)。
此外,回归结果还表明(如Table 3),尽管ChatGPT 4.0对任务表现提升有积极影响,但R平方值的变化相对较小,分别为整体质量变化0.012、新颖性变化0.016和实用性变化0.012,这表明其对任务表现解释差异的贡献有限。这种有限的影响与Table 2中观察到的AI模型更显著的影响形成对比,其中AI的影响为整体质量、新颖性和实用性的R平方值变化0.208、0.142和0.187。因此,AI模型的技术进步在提升人机协作的任务表现中,存在很强的局限性。也就是说,在人机协作的背景下,更先进复杂的AI模型的优势是很微小的,并非决定性因素。
对实验二的回归分析表明,引入AI培训后,其对任务整体质量表现有积极且显著的效应。尽管这一效应值得注意,但对R平方值变化的贡献也相对较小。在新颖性和实用性的任务表现维度上,也观察到了类似模式(如Table 4)。
而细分到具体任务,也有一些有趣的发现:培训和智商(IQ)在不同任务中的重要性也存在差异——在任务1中,培训未表现出显著效应,而IQ与任务表现正相关;相反,在任务2中,IQ的重要性降低,而培训成为了一个显著的影响因素,这表明培训存在学习效应,即个体可能需要时间来吸收和有效应用新知识和新技能。此外,通过检查不同条件下的任务完成时间分布,发现在任务1中,ChatGPT+Training条件的平均完成时间最长,其次是Human条件,ChatGPT Only条件最快。在任务2中,这一模式发生了变化,Human条件耗时最长,ChatGPT Only条件仍然最快,ChatGPT+Training条件在任务2中的完成时间显著减少,证实了学习曲线的存在。这意味着随着个体逐渐适应并应用新技能,培训的有效性可能变得更加显著,特别是在AI增强的任务中。Table 5结果显示,培训和使用高级AI模型的效应大小并不大,但是相比之下,培训对R平方值变化的贡献比ChatGPT4.0更为显著。这一发现表明,在涉及AI使用的场景中,人类因素如培训可能比技术因素(如AI模型的进步)发挥更关键的作用。
3.3 拓展分析
既然在人机协作的背景下,更先进复杂的AI模型的微小优势并非决定性因素,那么真正起到关键作用的是什么呢?研究发现(如Figure 5),在对比有无人工智能协助完成任务的情形中,简单地引入AI使用本身便成了绩效差异的决定因素,相对于其他解释变量,在任务过程中是否使用生成式的影响程度为81%。而那些习以为常的人力资本因素,比如学历、智商和性格,在这种对比中所占的比重甚至不足20%。当考虑培训时,技术因素的贡献略有下降,但依然十分显著。
然而,当人工智能的使用变得普遍,每个人都在使用AI完成任务的情况下,那些技术层面的因素,比如AI模型的先进程度,其影响力竟降至只有10.9%。换言之,如果所有人都使用AI完成任务,在这个前提下,人的因素——智商以及使用AI的经验——成为了主角。智商独自就贡献了33%,之前使用AI的经验也贡献了15.9%。更为引人注目的是,当将AI培训引入实验,技术进步因素的影响进一步缩水至8.5%。此时,人的因素依旧是不可或缺的支柱,智商的影响力保持在20.5%,而培训的效果也十分显著,占比达到了15.8%。这一系列发现颠覆了对技术进步与工作绩效关系的传统认知,揭示了在人工智能时代,人的角色和能力的不减反增的重要性。
此外,研究团队还进行了一些补充分析,因篇幅限制,这里列举其发现,感兴趣的读者可以阅读原文:
——AI辅助执行任务与独立执行任务所需的技能集之间存在差异。换句话说,那些在独立任务中表现出色的人,并不一定能在利用AI的任务中同样表现出色,反之亦然。这表明,在人工智能辅助的任务中表现有效所需的技能集可能与独立完成任务所需的技能集有所不同。
-——人力资本变量(如认知能力、教育水平、工作经验、AI使用频率)与AI在任务表现中的交互作用存在细微差别。其中,AI使用频率与ChatGPT的交互作用影响十分显著,这表明对AI工具的熟悉度和熟练度可以适度提高AI辅助在任务表现中的有效性。
——无论是先由人类先执行再由AI辅助执行,还是先由AI辅助执行,没有一种特定的任务顺序结构能够始终优于其他结构。这表明与AI的交互顺序并不明显决定任务表现。
——使用AI并不显著影响参与者继续使用AI的动机、创造性表现的自我效能感或在就业市场中的感知就业能力。然而,使用AI显著减少了参与者执行任务时的疲劳感。另一方面,培训对参与者的动机、自我效能感和感知就业能力产生了积极影响。
——通过分析交互日志,研究者测量了交互轮数、提示长度、问题多样性等指标,发现这些指标显著预测了任务表现。此外,分析还发现,参与者在ChatGPT Only条件和ChatGPT+Training条件之间的交互指标和模式存在显著差异,表明培训有助于参与者使用更有效的策略与AI互动。
——研究者还考察了参与者对ChatGPT响应的利用率,即参与者将ChatGPT的响应整合到任务输出中的程度。结果显示,利用率与任务表现之间存在倒U型关系,最优的利用率大约在70-80%的范围内,这表明在AI生成的内容与个人输出内容之间需要有一个平衡点。
结论与启示
04
既往研究表明,那些在常规工作中表现欠佳的人群,一旦融入人工智能的辅助,他们的工作效率和成果便会显著提升。但该研究带来了更加深入的理解:尽管人工智能的应用普遍提高了整体工作水平,但个体间的表现差异并未因此缩小。人工智能辅助的任务与独立完成的任务所需技能集存在差异,这意味着人类与人工智能的紧密合作不仅涉及技术的进步和应用,更需要对个体能力进行重新定义和探索。
在生成式人工智能快速发展的背景下,人类将面临一系列新的技能需求和能力结构的变化。为了充分发挥与人工智能合作的潜力,精准而高效的培训变得至关重要。通过系统化的人工智能能力培训,可以优化人机交互模式,进而提升工作效率。为了研究这一结果的作用机制,研究团队通过对交互文本数据的聚类分析,研究识别出三类不同的使用群体。其中,AI新手在所有交互特征上的得分普遍较低,在提供明确指令或采用高效互动策略方面具有明显不足。相比之下,另外两类群体虽然策略各异,但都能有效地引导人工智能完成既定任务。研究发现,培训显著降低了AI新手的比例,这表明培训在提升人们的人工智能素养和应用能力方面发挥了根本性作用。这说明接受培训能够帮助工作者向AI给出清晰、准确的指令,通过持续的互动实现更深层次的人机协同。
生成式人工智能的崛起为职业生涯带来了巨大变革,但这场变革的核心不仅仅在于技术的先进性。释放人工智能合作的全部潜力,关键在于培养人的能力——了解人工智能、与之有效互动,以及系统性的培训和教育。人工智能确实能够提升工作表现,尤其对那些在传统环境下可能处于劣势的人群。然而,它也带来了新的技能要求,这些要求正在重新定义职场中的“赢家”。因此,在人工智能日益普及的时代,培训显得尤为重要。它不仅帮助初学者成长为与人工智能协作的专家,还确保个体间的能力差异不会因技术进步而加剧。在走向人工智能普及的未来时,关键在于如何积极拥抱生成式AI以及如何利用和与之互动。在这个新时代,对人力资本的培养和人工智能技能的训练可能成为通往成功的关键要素之一。毕竟,在人与技术的竞争中,保持人性和增强人的能力可能是我们最强大且不可替代的优势。
Abstract
In this comprehensive study, we explore the dynamics of human-AI collaboration through two randomized controlled experiments, focusing on the role of generative AI and its interaction with humans. Our investigation demonstrates that access to generative AI significantly enhances performance outcomes, highlighting its importance as a performance determinant. However, our findings challenge the notion of AI as a great equalizer; while AI usage leads to improved performance, it does not necessarily compress variance among individuals, indicating the emergence of new skill disparities in the AI era. We found that working with advanced AI models, such as GPT-4.0, only slightly improves performance compared to using a less advanced model, suggesting that technological advancement is not the sole determining factor in collaboration outcomes. This underscores the importance of AI literacy as a unique and essential ability in the era of AI. Furthermore, our results reveal that AI collaboration training significantly improves performance by changing human-AI interaction patterns, as evidenced by the analysis of human-AI conversation logs. Our study provides valuable insights for organizations and policymakers, emphasizing the need to invest in human capital and AI literacy to harness the full potential of generative AI collaborations. As AI technologies continue to evolve, understanding and nurturing the human-AI partnership will be crucial for achieving optimal performance in the workplace.
推文作者:秦清华,中国科学院大学博士生,电子邮箱tsinghuaqin@pku.org.cn。
声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。
0
推荐