特德·姜:人工智能为何无法创作艺术?
孙佳贺 译 王洪喆 校
原文于2024年8月31日刊载于The New Yorker

特德·姜
在写小说或绘画时,艺术家所做的选择与人工智能存在本质区别。
1953年,罗尔德·达尔(Roald Dahl)发表了短篇小说《伟大的自动语法生成器》(The Great Automatic Grammatizator),讲述了一个心怀作家梦的电气工程师的故事。某天,在建成了世界上最快的计算机后,工程师意识到,英语语法所遵循规则的严谨性近乎于数学。他发明了一台小说写作机,这台机器可以在三十秒内写出五千字的短篇小说、在十五分钟内写出长篇小说。操作者需要像驾驶汽车或者演奏管风琴那样,通过手柄和脚踏板来调控幽默与悲怆的配比。最终小说写作机的成品大受欢迎,短短一年内,半数英文小说皆源自此项发明。
艺术是否有某种本质属性,使其不像达尔想的那样按下按钮就能机械创作?当前ChatGPT这样的大语言模型生成的小说仍显拙劣,但可以想见其技术表现终将有所改进。关键问题在于,此类改进可以优化至何种程度?在加减运算领域,计算器已实现对人类的绝对超越;同理,人工智能是否终将在小说创作、绘画生成及电影制作等艺术领域全面超越人类?
众所周知,艺术的概念及其优劣之分难以界定。但容我提出一个概括性的定义:艺术本质上是众多选择的产物。以小说创作举例则很好理解。在写小说时,无论自觉与否,你几乎要在输入的每个词上做选择。简单来说,可以假设一万字的小说大约需要一万个选择。但如果只是向人工智能程序输入提示词,你做的选择将少之又少。输入一百字的提示词大约只需一百次选择。
当人工智能根据你的提示词生成了一万字的小说,它必须弥补你未做出的所有选择。常见的实现路径有两种:一为平均化处理,通过互联网文本数据等现有资源,将其他作者的选择平均化。这种方式是所有潜在选择中最无趣的一种,这也解释了为何人工智能生成的文本常常平淡乏味。二为风格模仿,指令程序模拟某个作者的选择,这将产生同质化的故事。在这两种情况下,人工智能均无法创作出有趣的艺术作品。
在我看来,尽管画家的选择更难量化,但相同的底层逻辑亦适用于视觉艺术。真正的画作承载着大量的决策痕迹。相比之下,人们在使用DALL-E[1]等“文生图”程序[2]时仅需输入如“披甲骑士对战喷火龙”的提示词,余下创作皆由程序完成。(最新版DALL-E支持至多四千字符约数百词的提示词,仍不足以描述场景的全部细节。)生成图像中的多数选择必须借鉴网络上既有的类似画作。即便图像呈现精良的渲染效果,这也无法归功于输入提示词的用户。
部分评论家认为,“文生图”程序将如摄影术问世一般对视觉文化产生重大影响。此观点尽管具有表面的合理性,但将生成式人工智能与摄影术相提并论仍需深入辨析。摄影术诞生之初并不像艺术媒介,因其似乎并不蕴含多少决策空间,人们只需架好照相机并启动曝光过程。但随着时间的推移,人们意识到照相机蕴含着无穷的创作可能性,而艺术性也就潜藏于摄影师的诸多选择之中。或许难以说清具体的选择,但对比业余爱好者与专业摄影师的作品则高下立判。那么问题就转化为:使用“文生图”程序时人们是否有相似的机会做出大量选择?我认为答案是否定的。无论是从事数字绘画还是传统绘画的艺术家,在作画时脑海中做出的决策都远非几百字的提示词所能涵盖。
我们不妨设想这样一个“文生图”程序:经过多次对话,它允许你在文本框中输入数万词以实现对生成图像的精细化控制,这类似于具有纯文本界面的Photoshop。我认为,使用这种程序的人仍然称得上是艺术家。电影导演贝尼特·米勒(Bennett Miller)曾使用DALL-E 2生成了一系列极具视觉冲击力的图像,并将其在高古轩画廊[3](Gagosian Gallery)展出。为了创作这些作品,他精心编写了详尽的文本提示,并让DALL-E反复调整生成的图像。为了最终展出的二十件作品,他累计生成了逾十万张图像。但米勒坦言,在DALL-E后续版本中他难以复现同等水平的创作效果。我推测这可能是因为米勒将DALL-E用于其设计用途以外的创作场景。就好比他通过技术手段破解进入了Microsoft Paint的系统使其像Photoshop一样运行,但一旦Microsoft Paint版本更新,他的破解手段就宣告失败。OpenAI可能无意开发适配于米勒这类用户的产品,因为需要用户花费数月时间生成单幅图像的产品难以吸引大众市场。该公司致力于让用户“不劳而获”。

贝尼特·米勒展出的部分作品
很难想象一个程序经过多次会话能帮你写出好的小说。这个假想中的写作程序可能要求你输入十万词的提示词,以便它生成完全不同的十万词来组成你构思的小说。我不清楚这类程序的具体形态。从理论上而言,如果此类程序确实存在,用户或许可以被称为作家。但同样,我认为OpenAI这样的公司不会开发需要用户从零开始付出努力的ChatGPT版本。生成式人工智能的卖点是生成内容远超输入内容,这也正是其难以成为艺术家有效工具的症结所在。
推广生成式人工智能程序的企业声称它们将激发创造力。本质上而言,它们是在说艺术可以只需灵感而无需汗水——但二者不可轻易分割。我并非主张艺术必须包含繁琐的劳动,而是强调艺术需要在各个层级上做出选择。对成品而言,创作中的无数微观选择与构思中的少数宏观决策同样重要。将艺术创作选择中的“宏观性”等同于“重要性”实属谬误,宏观与微观相互关联才是艺术性所在。
相信“灵感至上”的人或许并不熟悉艺术创作的工具。即使创作目标定位于通俗娱乐而非高雅艺术,这一判断也同样适用。人们往往低估娱乐产品所需的创作投入。一部惊悚小说或许无法实现卡夫卡所言的“成为劈开心中冰封之海的利斧”的文学理想,但其创作过程中的精心设计可能不亚于一只瑞士手表。仅靠基础设定和情节难以写出有效的惊悚小说。若将惊悚小说中的全部语句替换为语义等价的表述,可能很难保证其原本的娱乐性。这说明惊悚小说中的语句及其代表的微观选择有助于决定惊悚小说的效果。
许多小说家都有过这样的经历:某个自认为掌握绝佳小说创意的人找到他们,并愿意分享创意以换取五五分成的收益。这样的人无意中透露出,他们认为遣词造句不过是微末琐事,而非故事叙述的基础。生成式人工智能吸引的正是这些认为无需运用媒介工具即可自我表达的人。传统小说、绘画和电影的创作者之所以被这些艺术形式吸引,是因为他们能洞察到每种媒介独有的表达潜能。正是最大化利用媒介潜能的渴望使他们的作品——无论是作为娱乐产品还是艺术品——都广受好评。
当然,无论是论文、报告还是电子邮件,绝大多数文本创作都无需数千次选择。在这些场景下,自动化任务处理有何危害吗?容我提出另一个概括性的观点:唯有作者付诸努力的写作才值得读者关注。虽然写作过程中的付出无法保证最终作品值得一读,但缺乏投入就无法产出有价值的作品。阅读私人电子邮件与审阅商业报告时投入的注意力类型固然有所差异,但在两种情况下,唯有作者将个人思考倾注其中,读者的注意力投入才是合理的。
近期,谷歌在巴黎奥运会期间为其产品Gemini投放了一则宣传广告——该产品直接对标OpenAI的GPT-4。广告展示了一位父亲用Gemini代笔撰写应援信,由其女儿寄给一位鼓舞她的奥运会参赛运动员。谷歌在观众广泛反对后撤下了这则广告。某传媒学教授称其为“我见过的最令人不安的广告之一”。值得注意的是,尽管被人工智能取代的并非艺术创造力,公众仍然反响强烈。事实上,孩子写给运动员的应援信从未被期待有多么精彩绝伦,如果这个小女孩亲笔写信,其内容可能与无数其他信件高度同质化。但此类信件的价值——无论对写信的孩子还是收信的运动员而言——在于情感真挚,而非文采斐然。
我们中的许多人都曾寄送过在商店购买的贺卡,也清楚收信人能辨识信上的文字并非我们亲笔所写。我们不会把从贺曼(Hallmark)公司[4]购买的贺卡上的内容再誊抄一遍,因为那会让人觉得不够诚实。程序员西蒙·威利森(Simon Willison)将大语言模型的训练描述为“版权数据的洗钱”(money laundering for copyrighted data),这为分析生成式人工智能程序的吸引力提供了有效视角:它们让你参与类似于抄袭的行为,但能规避与之相关的负罪感,因为甚至连你自己也不清楚你正在抄袭。
有些人主张,大语言模型并非对其训练文本进行数据漂洗,而是在从中学习,就像人类作家从读过的书中学习一样。但大语言模型不是作家,甚至算不上是语言使用者。语言,顾名思义,是需要沟通意愿的交流系统。智能手机的自动补全功能可能会提供优劣不等的补全建议,但在任何情况下,它都不具备与用户或信息接收方的交流意图。ChatGPT可以生成连贯的语句,让人们误认为其能够以某种手机自动补全功能无法实现的方式理解语言,但实际上它同样不具备交流意愿。
很容易就能让ChatGPT生成“我很高兴见到你”等词语序列。关于大语言模型的工作原理,我们仍有诸多不解之处,但可以确定的是,ChatGPT实际上并不高兴。犬类和前语言阶段的幼儿都可以表达“很高兴见到你”,尽管二者缺乏使用词语的能力。而ChatGPT既无感知能力也无主观意愿,这种意图的缺失正是其事实上无法运用语言的原因。“我很高兴见到你”这句话之所以成为语言表达(linguistic utterance),关键并不在于语序通顺的遣词造句,而在于其承载的交流的意愿。
语言对我们来说轻而易举,以至于我们往往忽视其建立在主观感受和交流意愿的基础之上。当大语言模型生成连贯语句时,我们很容易将自身体验投射其上,但如此我们将屈从于它的模仿游戏。就像蝶类进化出硕大的黑色翅斑,以此让鸟类误认为它们是大眼捕食者。[5]在某些情况下,黑色翅斑已经足够,此类蝴蝶被鸟类捕食的概率将显著降低。而只要能得以生存,蝴蝶本身并不在意它免于沦为食物的机制。但事实上,蝴蝶与对鸟类构成威胁的捕食者之间截然不同。
使用生成式人工智能辅助写作的人可能声称,大语言模型是从训练文本中汲取灵感,但我再次强调,这与我们通常所说的一个作家从另一个作家那里汲取灵感完全不同。试想某个大学生提交的论文完全由某本书中的五页引文组成,且他声称该引文精确传达了他的观点并优于他本人的原创表达。即使该学生完全向导师坦白他的行为,这也不能说成是他从他引用的书中汲取灵感。大语言模型可以重组引文使其来源无法识别,但事情的本质依然没有改变。
正如语言学家艾米丽·M. 本德(Emily M.Bender)指出的,教师要求学生写论文并不是因为世界需要更多的论文。写论文的目的是强化学生的批判性思维能力。就像举重训练对任何运动项目的运动员来说都十分重要一样,写论文培养了大学生无论最终从事什么工作都必备的技能。使用ChatGPT完成作业就像把叉车开进健身房,那样你的认知能力永远不会提高。
并非所有写作都需要富有创意、真情实感或者文采精妙,有时人们只是不得不写。此类写作可能服务于其他目的,如提升广告流量或满足行政需要。当人们被要求写作此类文本时,采用能提高写作速度的工具实属情有可原。但这个世界会因为写文件毫不费力而变得更好吗?拒绝使用大语言模型可能也不会让生产低质量文本的需求消失。但我认为无可避免的是,越是用大语言模型来满足此类需求,此类需求便会愈加膨胀。我们正在进入这样一个时代,用户用大语言模型将条目列表转化为文档,接收者再用大语言模型将该文档压缩回条目列表。真的会有人认为这是一种社会进步吗?
很可能终有一天我们将拥有能穷尽人类能做之事的计算机程序,但不同于推广人工智能的企业所声称的,这并非在未来数年内我们可以得见的场景。即使在与创造力完全无关的领域,当前的人工智能程序也存在深刻的局限性,这让我们有充分的理由质疑其从根本上是否值得被称为“智能”。
计算机科学家弗朗索瓦·肖莱(François Chollet)提出了以下区别:技能是你执行任务的表现,而智能是你获得新技能的效率。我认为这精准反映了我们对人类的直观感受。大多数人经过充分练习均可习得新技能,但我们认为越快习得新技能的人越有智慧。这个定义的有趣之处在于——不同于智力测试——它也适用于非人类实体。当一只狗迅速学会新技能时,我们同样认为这是智慧的标志。
2019年,研究人员开展了一项教老鼠学习驾驶的实验。研究者将老鼠放在带有三根铜制操控杆的小型塑料容器中,当老鼠前肢接触对应操控杆时,容器可前进、左转或右转。老鼠可以看到房间另一端的食物,并操纵小车朝食物驶去。研究人员每次训练老鼠五分钟,经过二十四次练习后,老鼠已经熟练掌握了驾驶技能。二十四次试验足以让老鼠掌握一项在物种进化史上可能从未遭遇的任务。在我看来这项实验是对何为“智能”的生动演示。
现在我们来思考当前备受推崇的人工智能程序。AlphaZero是谷歌DeepMind开发的程序,其下棋能力远胜任何人类玩家,但在训练期内它经历了4400万局对弈,远超人类棋手生命周期内所能达到的对弈总量。要掌握一项新游戏,它同样需要经历海量训练。根据肖莱的定义,由于AlphaZero这类程序新技能习得效率极低,所以其具备的是高水平技能而非智能。当前如果程序员事先不了解任务信息,他不可能编写出仅通过二十四次试验就学会简单任务的程序。

在国际象棋、将棋比赛中,AlphaZero轻易击败了人类世界冠军。在围棋比赛中,它也击败了人工智能AlphaGo Zero
经过数百万英里驾驶训练的自动驾驶汽车仍可能撞上翻倒的拖挂式卡车,因为此类事物在其训练数据中并不常见,而人类驾驶员在上第一节驾驶课时就知道应该停车。相较于解决代数方程的能力,应对陌生情况的能力才是人类智慧的根本所在。计算机在获得此种能力之前无法取代人类,而要获得此能力仍然长路漫漫。目前,我们寻找的只是那些增强版自动补全技术能完成的工作。
尽管经过多年炒作,生成式人工智能显著提高经济生产力的能力仍仅存在于理论层面。(今年早些时候,高盛集团[6]发布了一份题为《生成式人工智能:高投入,低回报?》的报告。)生成式人工智能最显著的成就体现在降低人们的预期:既降低读者对于文本质量的预期,也降低作者在写作时的自我预期。人工智能本质上是一种去人性化的技术,它将人视为低于人类本质的次级存在,即仅仅是意义的创造者和理解者。人工智能减少了世界上的“意愿”。
一些人为大语言模型辩护时声称:人类口述与书写的大部分内容也并非原创。这虽是事实,但并不重要。当有人对你说“对不起”时,过去其他人也曾说过“对不起”无关紧要,“对不起”三个字只是统计学意义上常规的文本序列也无关紧要。只要歉意发自内心,即便曾有人表达过相同的道歉话语,道歉依然富有意义。同样,当你表达见到某人的欣喜时,你就是在言说有意义的事物,即便这些话语缺乏新意。
类似的情况同样适用于艺术。无论是创作小说、绘画还是电影,你都投入了与观赏者的交流之中。作品并非要与人类历史上的每一件艺术品都截然不同才有价值。艺术的新颖性源于表达者本身、源于作者独特的生活经历、源于其抵达观者生命中的特定时刻。我们都是历史的产物,但正是由于我们终生都在不断与他者互动,我们才赋予世界以价值。这是自动完成算法永远无法实现的,任何人都无法反驳。
(单位:孙佳贺,北京大学新闻与传播学院;王洪喆,北京大学新闻与传播学院)
注释
[1]DALL-E,图像生成系统。由美国科技企业OpenAI于2021年1月推出。
[2]“文生图”程序:通过向人工智能程序输入文字来生成图像。
[3]高古轩画廊(Gagosian Gallery)是享誉国际的现当代艺术画廊,在纽约、洛杉矶、旧金山、伦敦、巴黎、罗马、雅典、日内瓦、香港及巴塞尔等10座国际城市总计设有19个展览空间。
[4]Hallmark(贺曼公司)在1910年由Joyce Hall 创立,经过百年发展,Hallmark的业务更加多元化,包括贺卡、文具、服装、寝具、化妆品、电子贺卡、电脑软件、数码娱乐、电视频道等,遍布包括中国在内过百国家。
[5]黑色翅斑可以模拟猛禽的眼睛。
[6]高盛集团(Goldman Sachs)是一家成立于1869年的美国银行控股公司,为企业、金融机构、国家政府及高净值个人提供各种金融服务。


