长久以来,人类将创造力视为自己的特性,认为它是区分机器与生命的一条明显界线。然而,随着人工智能技术的迅猛发展,特别是大型语言模型如 ChatGPT 的出现,这条界线正在逐渐模糊。
在最近发表在 Scientific Reports 的一项研究中,来自阿肯色大学的科学家们将人类与 AI 在创造力方面进行了直接比较。他们利用了包括替代用途任务(AUT)、后果任务(CT)和发散性联想任务(DAT)在内的多项测验,旨在评估参与者在发散性思维上的表现。令人惊讶的是,结果显示,在控制 AI 与人类生成想法的数量相同时(即回应流畅性),AI 在各项测试中显示出的创造性都超过了人类。
论文:Hubert, Kent F., Kim N. Awa, and Darya L. Zabelina. "The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks." Scientific Reports 14.1 ( 2024 ) : 3440.
这项研究通过 Prolific 在线平台招募了 151 名人类参与者,并利用 ChatGPT-4 创建了同等数量的 AI 参与者。研究采用了三种主要的创造力测量方法:替代用途任务、后果任务和发散性联想任务。
在替代用途任务中,参与者需观察一些日常物品(如 " 叉子 " 和 " 绳子 "),并想出这些物品可能的创造性用途。答案将根据数量(流畅性)、独创性以及每个有效答案的详细程度来进行评分。后果预测任务要求参与者想象一个假设情景(例如,如果人类不再需要睡眠,会发生什么?),并在限定时间内尽可能多地预测其后果。而发散性思维任务则要求参与者列举出尽可能多的不同名词。这些测试共同目的在于从流畅性、独创性和详细程度三个维度评估参与者的开放式思维能力。
为了公平比较人类与 AI 的创造力,研究人员在发散性思维任务中控制了双方想法生成的数量。具体而言,研究人员首先设定了明确的任务要求,比如在替代用途任务中,参与者需要为特定物品(如 " 绳子 " 或 " 叉子 ")想出尽可能多的创造性用途。人类参与者完成任务后,研究人员记录了他们的流畅性得分,即每人产生的独特答案的数量。然后,当 GPT-4 执行相同任务时,研究人员确保 AI 生成的答案数量与人类参与者相匹配。这样,通过控制流畅性,研究人员能在相同基础上更准确地比较双方在独创性(每个回答的独特性)和详细程度(回答的详细程度)上的表现,进而评估其创造性潜力。
人类参与者通过 Qualtrics 在线问卷平台提交回答,而 AI 参与者的回答则是通过人工辅助生成的。最后,研究人员利用开放创造性评分工具(OCS)和语义距离评分工具,对所有有效回应进行了客观的评分和分析,从而评估了独创性和详细程度。
使用语义距离对人类和 GPT-4 样本的替代用途任务、后果任务和发散关联任务响应的原创性的描述性统计。
结果表明,在替代用途任务中,人类和 GPT-4 的流畅性得分分别为 6.94(SD=3.80)和 7.01(SD=3.81),差异不显著。但在原创性方面,GPT-4 在 " 叉子 " 和 " 绳子 " 两个提示下的表现均优于人类。特别是在 " 叉子 " 提示下,GPT-4 的原创性显著高于人类。此外,GPT-4 在回应的详细程度上显著超过人类,例如在替代用途任务中,GPT-4 的详细得分为 15.45(SD=6.74),远高于人类的 3.38(SD=2.91)。
在后果任务中,人类和 GPT-4 在流畅性上无显著差异,但 GPT-4 在 " 不再需要睡眠 " 和 " 用手行走 " 两个提示下的原创性更高。而回应的详细程度上,GPT-4(M=38.69)也显著高于人类(M=5.45)。
在发散性联想任务中,尽管人类在独特单词的数量上领先(人类独特单词数为 651,占比 87.03%,而 GPT-4 为 220,占比 69.40%),但 GPT-4 在语义距离得分上更高,分别为 84.56(SD=3.05)和 76.95(SD=6.13)。
可以说,AI 在所有发散性思维的测量维度上都会优于人类参与者。特别是在控制了回答流畅性之后,AI 在原创性和详细程度上的表现尤为突出。比如,在替代用途任务中,AI 在原创性和详细程度上的得分明显高于人类。在后果任务和发散性联想任务中,AI 同样展现出更高的创造性,这一点通过语义距离得分的统计分析得到了证实。
尽管这项研究展现了 AI 在发散性思维任务上的显著潜力,但也存在一些问题和局限性。首先,全面评价创造力不仅需要考虑到原创性,还要考虑到想法或产品的实用性和适宜性。但评价适宜性时需要考虑到许多因素,如社会文化和历史背景。然而,研究中使用的语义距离得分并未涉及这些因素,而是反映了看似相关(或无关)想法之间的相对距离。因此,这些结果仅反映了发散性思维的一面,并不能全面代表 AI 在创造力方面的优势。
此外,研究发现,相较于人类,GPT-4 在回答中使用了更高频率的重复词汇,虽然人类回答的词汇范围更广,但这并未必导致更高的语义距离分数。这一发现强调了灵活思考可能是人类中心发散性思维的强项。更值得注意的是,AI 在词汇选择上虽然更集中,但这种集中可能更有助于提高原创性。例如,AI 能够使用非具体物品的词汇(如 " 自由 "、" 哲学 "),而人类在生成具体可观察的想法时可能受到固定思维的限制。这种生成列表之间的差异可能会使 AI 表现出更多的原创性。
面对机器的出色表现,我们不禁反思,创造力到底是什么?它是心灵深处偶尔迸发的灵感之光,还是能够被算法和数据精确模拟的技术?
尽管这项研究向我们展示了 AI 在发散性思维方面的显著潜能,但真正的创造力远不止于产生创新思想那么简单。它还涉及将这些思想实现为有深远影响的创作,解决现实世界问题的实践能力。因此,AI 与人类创造力的较量还远未尘埃落定。更可能的是,在未来,我们会看到更多由人工智能和人类共同创造的杰作,开启一个全新的协同创造的舞台。
来源:追问