文 / 费利克斯·斯塔尔德(Felix Stalder)
翻译/ 谢俊义
校对/ 王婧洁
抱歉,版面安排上若有不便,还请见谅。我直到最后一刻仍在尝试根据屏幕尺寸进行调整,但对此仍有些生疏。感谢主持人的介绍,也感谢黄教授召集此次会议。能在此发言,我深感荣幸与喜悦。我的发言将主要从西方视角,具体而言是德语区及英语学界的欧洲视角。稍后讨论环节,我们可以共同探讨这一视角在本地语境中的适用程度,以及其中存在的根本差异。

让我简要概述一下我所讨论的内容。首先,非常简短地说,当我谈论数字文化和生成式AI时,我所说的‘文化’是什么意思?其次,我认为我们目前正处于数字文化两个阶段之间的过渡期。在第一阶段,即数字文化1.0时期,定义技术和文化实践的核心是将人们彼此连接。这一理念嵌入在端到端原则中,意味着智能存在于系统的边缘,在设备中,但最重要的是在人们身上。进入第二阶段,即数字文化2.0时期,智能被集中到数据中心。这极大地改变了文化的动态。到目前为止,聊天机器人是定义技术,但现在还为时过早,无法做出判断。最后,我将探讨三个具有代表性的艺术项目,这些项目以美学和政治有趣的方式探索这一新阶段的数字文化。

首先,关于我所说的“文化”具体指涉何种概念。学界对文化的定义尚未形成共识,现有文献中可查证的界定多达数百种。我在这里并不打算对它们进行总结,而是想再补充一种定义;不是因为它是唯一正确的,而是因为它对于我们理解当前数字世界中正在发生的变化是有启发性的。在此语境下,我所指的文化是一个由群体实践的嵌套式过程体系,这些过程旨在创造、质疑、巩固并转化意义,从而引导集体与个人的行为规范。简而言之,文化的本质在于通过构建意义来引导行为。文化实践涵盖了所有表达形式,跨越了高雅文化与通俗文化之间这种根本上属于人为设定的分界。文化呈现方式具有多重维度:文化既可以是显性的,例如人们公开进行辩论的时候;也可以是隐性的,当某种行为被理所当然地接受时,比如见面时是否要握手;还可以是嵌入式的,例如体现在我们所处的建成环境或技术性物品中。基于这一视角,技术与文化之间、技术与社会体制之间的区隔,正如高雅文化与通俗文化之分野那般,本质上都是人为建构的产物。

文化的探讨最终必然指向价值命题。凡有价值判断之处,便存在文化争论。重力现象不属于文化议题,而跳伞行为则是;死亡本身不是文化问题,自杀行为却是。总体而言,文化始终围绕以下命题展开:何为正当与谬误?何为审美与丑恶?何为可欲与禁忌?这些具体追问最终都指向一个根本性命题:我们究竟是谁,又应当如何生活。文化本质上是一种高度依赖沟通的动态过程,既受沟通结构的塑造,也反过来影响沟通结构。当沟通媒介发生变革时,不仅意义建构与争辩的模式会发生改变,这些文化争辩的实质内容也会随之演变。因此,数字文化可定义为:在数字媒体环境下,进行意义构建并依循意义行动的过程。它着重探究数字媒体的功能特性如何从形式与内容两个维度开始重塑文化进程。文化的探讨最终必然指向价值命题。凡有价值判断之处,便存在文化争论。重力现象不属于文化议题,而跳伞行为则是;死亡本身不是文化问题,自杀行为却是。总体而言,文化始终围绕以下命题展开:何为正当与谬误?何为美与丑?何为可欲与禁忌?这些具体追问最终都归结为一个根本问题:我们是谁,又应当如何生活。文化本质上是一种高度依赖沟通的动态过程,既受沟通结构的塑造,也反过来影响沟通结构。当沟通媒介发生变革时,意义的建构与争辩模式随之改变,文化争论的内容也因此演变。因此,数字文化可以被界定为:在数字媒介普遍存在的条件下,人们进行意义建构并据此行动的过程。它关注数字媒介的“可供性”(affordances)如何从形式与内容两个维度共同重塑文化过程。

当前,数字文化正处于深刻转型的阶段。如今我们可以清晰地观察到数字文化发展的两个阶段:第一阶段大致从1980年持续至2020年,其核心理念是实现人与人之间的互联。该阶段的核心技术聚焦于机器与人类的网络化连接,而开源运动正是这一愿景最具乐观进步精神的体现。第二阶段始于2010年代末期,人工智能逐渐占据主导地位。核心目标不再仅仅是连接人类,而是构建智能机器。数据中心成为这一阶段的定义性技术。当然,任何历史分期都存在近似性和重叠性,正如我们此前所闻,旧有范式从未真正消亡。不过,这种分期确实有助于梳理研究脉络。数字文化第一阶段的主要特征体现在生产者与消费者界限的消解——以MP3文件为例:当您在播放器中打开它时,您是消费者;当您在编辑器中修改它时,您便成为生产者。每个人都可以,且日益需要同时扮演生产者与消费者的双重角色。试想入境美国时若声称没有社交媒体账号,这种情形反而会引发焦虑。


该阶段的核心创新体现在网络作为组织形态的规模化扩张,正如Manuel Castells(曼纽尔·卡斯特)提出的“网络社会”理念所阐述的。网络本身并非新生事物,它本质上是人类社会性的一部分。然而,相关技术的进步使得这种网络化组织形式得以突破地域与规模的限制,从小型即时群体扩展至广阔无垠的全球舞台,这正是”网络社会”理论的核心理念。这一消解生产者与消费者界限的转变,显著提升了生产者的数量与多样性,并极大地增加了沟通总量。随之而来的是,既有的文化机构陷入了更深层的危机,这些机构原有的体制结构难以应对如此庞大的沟通规模、多元的沟通形态以及随之产生的代表性诉求。需要强调的是,这些变革并非由技术直接诱发,但技术无疑使其在社会中占据了主导地位。

让我通过一个具体案例来阐释这场危机。在1989年,游击队女孩(Guerrilla Girls,1985年创立于美国纽约的匿名女性艺术家团体)提出的质疑:“女性是否必须赤身裸体才能进入美术馆?”在此我们看到一个曾被长期排斥的群体——女性艺术家,不仅要求被纳入体系,更在批判既有文化机构的遴选机制,这些机构的任务是定义什么是重要的,什么是不重要的。问题的关键并不在于如何优化遴选标准,而是更根本地质疑这种遴选权本身的正当性——“谁赋予你决定的权力?”所以,文化正统(canon)权威性的根本命题被彻底推向台前。因此,传统机构纷纷陷入危机,并开始自我重塑。博物馆从精英文化教化场所转变为大众媒体化的旅游目的地。

与此同时,为应对日益增加的内容量,新兴机构与实践模式应运而生,并在此过程中逐渐主导了数字文化第一阶段的形态演变。需要说明的是,这些新形态早在狭义数字时代之前便已萌芽,它们始于独立出版实践,正如我们熟知的二十世纪六十年代依赖模拟技术兴起的同性恋、女权主义及其他少数群体的出版物,这些实践体现着某种自我传播的精神内核。这种精神在二十世纪七十年代起发展的公共广播与电视中得到技术升级,观众首次成为内容生产者,为自身社群制作电视节目。进入数字时代后,这一趋势首先体现在桌面出版(desktop publishing)领域,此时人人都能相对简便地制作印刷出版物,虽然传播介质仍是纸质,但生产过程已数字化。与之并行的是早期互联网应用:新闻组和电子公告板如同待用户填充的容器,这可以说是后来所谓‘用户生成内容’的起点。随后万维网在九十年代兴起,继而社交媒体将这种自我表达手段商品化,将其转变为我们所知的一个大众媒介,而其发展后果我们也已有目共睹。

所有这些技术与方法都具有共同特征:它们为自我传播而设计,以用户生成内容为核心,信息发送者与接收者的界限极其模糊。这些系统旨在产生海量交流内容,无论编辑会议多么高效,传统日报都永远无法容纳如此庞大的信息量,因其底层结构就与这种呈现方式相悖。与“先筛选后发布”的广播媒体(由专人决定发布价值)截然相反,这些新系统采用“先发布后筛选”的模式,所有人皆可发布,事后才通过某种机制进行筛选。正如我所说,随着社交媒体成为了主流,“人人可成为生产者”已成为常态化的霸权逻辑。而在这种结构中缺席,没有社交媒体存在感,反而会立刻让人起疑心。

当我们审视数字文化的这一阶段时,可以发现意义建构过程主要呈现三种基本模式:其一我称之为指涉性,其二为共同性,其三则是算法性。请允许我简要阐述。指涉性是指运用现有文化元素创造新意义的实践。混音(Remixing)已成为无处不在的文化技巧,意义的生成不在于元素本身,而在于不同元素间建立的关联,这些元素多为现存文化符号或融入新创内容。让我举个混音文化的特别例子。

其实举例有点奇怪,因为有无数的例子,但我喜欢这个。DJ Danger Mouse 于2004年创作的《灰色专辑》(The Grey Album)。这位音乐人将披头士乐队(The Beatles)代表白人音乐精髓的《白色专辑》(The White Album)与Jay-Z标志黑人音乐巅峰的《黑色专辑》(The Black Album)进行重构融合,创造出超越种族二元对立的艺术合成。这件作品堪称2000年代初”后种族时代”乐观精神的具象体现,这种历史思潮正是奥巴马数年后得以入主白宫的社会基础。请欣赏作品的开篇部分。(视频案例播放)我们感受到这种文化实践的独特魅力,其核心理念在于:通过整合截然不同的元素,构建出全新的关联性内容,这正是文化创作的路径。
接下来要探讨的第二种模式是共同性,这体现在诸如分享、点赞、评论等具体行为中。这些实践形成了一种集体筛选机制,将群体注意力导向共同体内部具有相关性的内容。通过这种集体注意力的塑造,逐渐形成了对该特定兴趣群体具有意义的共享参照体系。需要强调的是,无论这些群体的兴趣为何,意义建构与真理无关,谎言、迷信与阴谋论同样能产生意义。此处所说的“意义”,是指被群体共同认可的共享参照体系,即特定群体对某些事物比其他事物更具重要性、更富意义达成的共识。在此阶段形成的第三种基础模式,旨在应对信息洪流,这些信息已远非源自古登堡时代延续而来的传统信息处理结构所能容纳,即算法性。其核心实践在于运用机器对信息进行归类与排序,典型案例包括搜索引擎和社交媒体信息流:它们通过特定准则对海量信息进行筛选与排列。这三种模式共同践行了“先发布,后筛选”的模型,能够有效处理极其庞大的信息量,从而构建出引导行为的共享意义。在此期间,一个始终稳定的基本预设是:文化内容的传播者与接收者主体都是人类。这意味着任何信息本身已包含既定意义,后续不过是通过点赞多寡等方式进行集体评估,但意义要素已然存在于信息本身。情况发生了变化。无论你把日期定在哪个时间点,‘机器人’已经在计算机系统中发挥了重要作用,每个系统都有自己的‘妖魔’,它们或多或少地自动运行。但发生的变化是,机器人从后端移到了前端,它们突然开始与人类互动。

正如“死网理论”(Dead Internet theory)所揭示的,作为对这种趋势的回应,自2010年代后半叶起,“证明你是人类”这种原本不应成为需求的要求变得无处不在,这正是对机器人程序走向前台的直接反应。而自2020年代初以来,生成式AI输出正在日益取代人类的沟通方式,我想大家都目睹了许多例证,无需赘述。甚至有头条称AI生成的历史视频正在取代人类制作的视频。在你认为这是世界末日之前,请记住被取代的人类制作视频本身就是为了助眠而存在的,对吧?并非大学里教授的那种历史课程,这些视频是有人用安抚的语气讲述你不感兴趣的事情,帮助你入睡。

所以我将在接下来强调的一个重要观点是:生成式AI,无论是大语言模型还是扩散模型,它们都没有生产意义。这就引出一个根本性问题:它们以何种方式参与文化进程?在生成式AI输出的过程中,任何认知理性模式的意义生成都没有参与其中。没有语义学、没有因果关系、没有逻辑,尽管有时它们是经过精心设计的,而且目前确实存在一些在统计和因果模型之间的混合模式,但正如Dylan所指出的,统计模型的主导地位意味着这些意义生成的系统并没有参与其中。当然,也有其他的意义生成系统,但它们的应用更少。所以生成式AI并不涉及通过叙事、符号学、类比等方式制造结构性符号意义,它们当然也不涉及体验性、实践性层面的意义,也就是情感、语用或身体化层面。如果说它们有什么作用,那就是认知理性模型,但它们显然连这一点也不是。

因此,我们有了一种新的信息处理策略,其中一个对于这些生成式AI模型来说是原生的,叫做有损压缩。在这里,复杂的输入,比如说互联网上的所有图像被简化为一组固定的关系,背景被简化,变异性减少。而所创造的是一种新的本质感,这就是这张椅子真正是什么样子,事物的本质是如何的。这是一种从中出现的新本质主义客观主义。

第二个模式当然是关注模式,也就是那些被重复的元素,它们因此被当作本质,并且在它们的重复中有某种规律性。新事物的创造现在变成了在这些模式内进行变异的创造,但永远不可能超出这些模式。这些模式是通过关注变量之间的关联来发现的,而这些变量在根本上是无法为人类理解的,我们不知道多层神经网络中的变量到底意味着什么,也不知道它们之间的关联是如何建立的。基于这些,生成的输出本质上是幻觉,而幻觉的意思是,在没有外部背景刺激的情况下,产生一种强烈的现实感。幻觉的产生是当一个人相信某件事是外部现实,而这件事实际上完全基于内部刺激。

但我必须迅速补充一点:仅仅因为你在“幻觉”,并不意味着你就一定错。问题在于,很难判断某件事何时是对的,何时不是。我们在处理生成式人工智能输出时都会遇到这一问题。乐观者认为,这只是暂时的,很快就会消失。
然而,从根本上讲,这是一场巨大的认识论赌博,其逻辑如下:只要有足够最新的数据,并在适当的间隔进行重新计算,相关性(correlation)就能战胜语义(semantics)、因果(causation)与逻辑(logic)。这正是机器超级智能的承诺。相关性会战胜语义、因果和逻辑。而作为经过科学训练、习惯通过因果与逻辑进行验证的人类,我们倾向于拒绝这种赌博,而且理由确实充分。但我们不应过于自满地说:“这不过是幻觉,我们可以忽略它。”因为在高度复杂、动态且信息量巨大的系统中,这种方法可能是有用的,甚至可能是唯一可行的方法。

我想到的例子自然是高速金融市场——这些市场信息极其密集、复杂到无法完全掌握全貌,并且动态变化迅速,以至于无法在相关时间范围内进行因果分析。例如,金融崩盘事件可能在几分钟内发生,而对其进行因果调查往往需要数月甚至数年才能完成。因此,在实时环境下,你永远无法通过因果分析来处理这样的问题。而在金融市场环境中,“意义”本身并不起作用。自上世纪70年代初以来,市场运作的假设是基本随机性,或者如艺术家杰拉尔德·内斯特勒(Gerald Nestler)所言,“噪声是信息的主宰”,意味着缺乏意义和因果逻辑。我们所能获得的,仅仅是可观察的行为,而无法进行解释。

大多数机器学习的基础技术,尤其是先进的贝叶斯统计(advanced Bayesian statistics),最初都是在金融市场中得到广泛应用的。作家 贾斯汀·乔尔(Justin Joer) 在其著作 《数学的革命:人工智能、统计学与资本逻辑》 (Revolutionary Mathematics: Artificial Intelligence, Statistics and the Logic of Capitalism) 中提到“认知的金融化”(financialization of cognition),即机器学习将金融市场交易者的思维方式扩展到社会生活的各个方面。
金融量化分析的目的不是理解,而是“行动能力”(agency)。所谓行动能力,是基于阈值的风险评估。其基本操作逻辑如下:判断给定输入产生期望输出的概率,并设定一个阈值;当概率超过该阈值时,你就按照其为真的方式采取行动。换句话说,阈值将概率转化为确定性——例如,当概率高于60%时,你便按其为真进行操作。

因此,正确答案就是那个概率足以让你愿意据此采取行动的结果。在整个过程中,意义、语义、逻辑和因果关系都未曾参与,唯有关联性、行动与反馈在发挥作用。生成式人工智能正是基于这些流程构建的,这种方法颠倒了文化生产的逻辑:它通过生产行动来引导意义,意义则源于对行动反馈的观察。先是某个行为被执行,随后观察反馈,这些反馈进而赋予行动以意义。我们当下的许多政治运作恰是如此,比如观察唐纳德·特朗普(Donald J. Trump),他可能会说任何话,然后哪个说法产生反响,就接着采用哪个说法。

数字文化1.0的运作模式是:有人认为某件事值得表达,于是将其发布;其他人再决定是否值得关注,并通过点赞、分享和评论向他人传递他们的判断,从而有效地放大了最初的意图。而数字文化2.0则表现为机器行动产生半随机的新奇内容。人们需要对这些新奇进行意义解读,即根据自身的标准评估输出的质量,并筛除不感兴趣的内容,甚至可能是从人类意义角度来看属于“幻觉”的信息。许多运用生成式AI进行创作的艺术家清醒认识到其可疑的认知主张,因此他们将其视作半随机的新奇生成器。我的意思是,他们并不把它当作能够产出深度洞察、理解或其他形式意义的知识机器,而是研究其创造的约束条件,即半随机新奇生成器中非随机的部分,例如数据、潜在空间(latent space)、模型等,然后关注事后解读的过程,并将其向更广泛的公众开放。这也是他们将意义生成过程定位于社会过程而非机器的原因:机器仅仅是触发这一社会过程的工具。下面我将给出三个非常不同的例子来说明这一点。

首个案例来自伊拉克裔德国艺术家诺尔·巴德里(BADRI)2020年的作品《巴比伦幻象》(Babylonian Vision)。她向五家顶尖博物馆申请获取苏美尔文物的数字馆藏数据,均遭拒绝。这立即引发出数据可及性的尖锐质问:谁掌控着未来创作的文化源材料?我们目睹的并非数字时代的颠覆性突破,而是殖民历史在数字领域的延续——正如实体文物曾被控制,其数字表征同样被垄断。艺术家随后通过数据爬取手段,利用约10000张图像训练了早期生成对抗网络模型。这些受非随机约束产生的输出完全处于幻觉状态,真假对错在此失去评判意义,这显然已超越考古学范畴。

巴德里的作品因此不再指向过去,而是指向殖民数据体系之外的创作可能性。但关键问题在于:这种未来图景中哪些部分值得追求?为谁而追求?机器无法回应这类价值判断,唯有通过开放的社会讨论才能界定。这正是她将作品带回实体展览空间的重要意义,在直接对话中共同定义这些生成物所指涉的未来。

第二个项目是霍莉·赫恩登(Holly Herndon)与马特·德赫斯特(Matt Dryhurst)去年启动的《Xhay变异体》(Xhay Mutant)。该项目源于对有损压缩过程的观察:当复杂个体被简化为假定本质时,这位拥有丰富网络形象的艺术家竟被压缩为橙色头发与特定发型这两个特征。为深入探究,他们通过强化学习拍摄强化模型已编码特征的图像,诸位所见正是艺术家身着戏服、融入潜在空间视觉化的真实摄影。

他们据此建立专属模型,使所有人物都呈现赫恩登的视觉特征。但项目的真正突破在于:通过纽约惠特尼双年展的在线图像生成器,将这些输出重新注入大型系统。由于博物馆数据在训练系统中被视为高质量来源,这些带有特定视觉标记的图像将以更高权重进入下一代模型训练,若诸位未来见到更多橙发图像,便可知其缘由。这些图像并非真实再现,而是对潜在空间的操控,由此引出核心议题:谁掌握这种操控权?谁能作用于模型架构层面而非仅仅输出端?机器依然无法解答这些命题,决策权仍属于人类用户。

最后要讨论的是奥地利艺术家M·阿哈瓦(M. Ahava)的新作《后明日之域晨报》(post tomorrowlands morning post)。作品标题致敬1950年首次开幕的华特·迪士尼展览“明日世界”(Tomorrowland),该展览将未来描绘为自动化与休闲的消费主义天堂。然而,仅两年后的1958年,查尔斯·基林(Charles Keeling)在夏威夷开始进行二氧化碳监测,其数据很快指向了一个截然不同的未来。
该作品会根据观众接触作品的日期,生成50年后的未来报纸。例如,这里展示的是设定于2075年10月17日、报道上海法租界地区的报纸。报纸包含高度本地化的新闻,例如有关城市农耕的报道,同时包括详细天气预报、过去15年海平面上升情况对比、以及延续基林方法测量的二氧化碳浓度(单位:PPM)。

当然,我们都知道,不可能预测如此遥远的天气——事实上,超过14天的预测本就不具科学严肃性。那么,这件作品真正的机制是什么呢?作品要求观众在不同的预测模型之间进行选择:第一类是气候变化预测模型,范围从可能已被超越的1.5°C,到未来50年可能升温约4°C;第二类是四种社会经济路径(socioeconomic pathways)情景,用于模拟社会在不同政策选择下如何应对气候变化。
这些参数构成了生成未来报纸的基础,通过生成式 AI 系统(文本与图像)输出,呈现出高度具体化、超本地化的未来气候与社会图景。作品的目的并非精准预测未来,而是通过交互体验让观众思考气候变化的不确定性及未来的可塑性。

这三件作品的共同价值在于:它们将生成式艺术视为特定约束条件下的产物,这些约束既关乎技术更关乎政治。这些模型不生产真理,而是制造概率化情景,一种受约束的虚构与幻觉生成方式,借此指向多元未来。尽管这些模型常被用于限制未来想象,但同样能基于不同约束条件开拓多元未来图景。它们使未来变得可被思考,这也正是当前模型同质化的严峻所在,我们思考未来的路径正日益收窄。但局面未必如此,最终仍需模型使用者——人类观众来共同决定这些生成物的文化意义,回应文化活动的永恒诘问:我们是谁?我们应当如何生活?谢谢。

提问环节
Q1:感谢斯塔尔德教授。我的问题关于您提出的两种数字文化。有人可能会认为,像生成式人工智能这样的技术,其实是在推动而不是替代数字文化 1.0。对我来说,它们在某种程度上仍然具有参照性和可交流性。同时,当我们看到消费者变成专业创作者,或者企业老板也进入创作领域成为信息生产者时,这种交流关系也同样存在。您能否进一步解释一下,这两种数字文化的差别在哪里?以及您是基于什么判断得出这个结论的?谢谢。
A1:我的意思是,第一阶段的东西从来不会完全消失,只是权重发生了变化。我认为第二阶段明显是建立在第一阶段之上的,所以第一阶段保留了很多元素。比如,你提到很多人可以相对容易地进行创作。但即便是人类的延迟创作,我们之前也讨论过,其中的能动性究竟在哪里,这是一个难题。即便我们认为人类的提示没有机器提示那样可扩展,人类还是可以利用它,尝试拼凑出意义,但实际上他们并不擅长这样做。
机器提示效率更高,它们更擅长“淹没意义”。我并不是说一切都变得无意义,而是说这些系统首先是为了在世界中采取行动、创造能动性、改变环境。然后我们才会去思考、去应对这种变化:我们该接受它吗?不喜欢的话能否把它引导到另一个方向?
关键在于,它颠倒了我们习惯的逻辑。通常我们先有一个意识,知道自己要做什么,然后去做。而这里正好相反:事情被做出来,不管原因如何,有的可能有意义,有的可能没有,但其实并不重要。一旦这些结果存在于世界中并产生了效果,你就能察觉到。比如在股市交易中也是一样,你无法预先知道某笔交易是否成功,只有事后才能判断。你先做了,然后看发生了什么,再做出反应。并不是你完全理解系统,然后再基于理解去行动,这就是我之前说的那种倒置逻辑。
Q2:感谢您的演讲。谢谢您。我对您使用“幻觉”这个词非常感兴趣。我想请教一下:比如说,“幻觉”和“想象”之间究竟有什么区别?以及,您为什么会特别选择用这个词?
A2:我之所以使用这个词,正是因为它在人工智能语境中被广泛使用。我认为“幻觉”和“想象”的关键差别在于:想象是一种你主动意识到的、发生在内心的构思活动。比如身为作家,你可能会想象角色间的对话,但你不会认为这些角色此刻正真实地在房间里与你交谈。而幻觉的特征正是这种认知能力的缺失,即无法区分内在刺激与外部现实。想象始终是主体清晰认知下的内部刺激过程,而幻觉则突破了这种界限。
Q3:我想就这个问题继续追问。因为我认为这里的用词选择实际上非常重要。我有很多讨论对象是计算机科学家,其中不少人对使用“幻觉”这个词持强烈保留态度,原因正是刚才提到的那些:一方面,这个词可能会弱化这些系统所具有的想象性或创造潜能;另一方面,它还会让人觉得,这些系统的失败只是一些程序错误或系统运行中的小故障,是可以被修复的,而不是把它们理解为这些系统本身的特征,即设计层面的特征,也就是说——它们本来就是“幻觉机器”。正如您所说的,它们就像一只停摆的钟,偶尔会因为巧合而显示出正确的时间。但“幻觉”这个说法本身,似乎预设了这些系统在某种程度上具有生成真理、参与真理,或者关心真理的潜在能力。
A3:不妨借用海勒的一句名言改编:“就算你有被害妄想,也不代表没有人盯着你。”同理,目前我们无法判定,这种形式的“幻觉”究竟什么时候才算是对世界的恰当解读或建立了合适的关联。
在金融市场中,量化分析本质上就是这样的操作:在庞大的金融数据池里做模式匹配。它的优势是速度非常快,能在毫秒级别完成自我更新,这取决于你的信息输入和计算周期。在极短时间内,它就能生成足够合理、可据以行动的结果。至于风险阈值,比如说 60% 或 80% 的置信度,这完全由系统设计者来决定,取决于他们的风险偏好。比如广告投放系统,它们的门槛很低,只要比随机好一点就行。哪怕只有 5% 或 10% 的点击率,对广告商来说都是巨大的提升,而对我们个人而言,这几乎仍然是随机广告。这其实是一个风险评估的问题:你如何权衡判断错误的代价?而这一切都不是系统本身内在的属性。
任何概率系统,包括贝叶斯统计,都不可能提供 100% 的确定性,它们从设计上就不是为了做到这一点。因此最终总需要设定一个临界点,把剩余的不确定性当作零,这完全取决于系统构建者。
我认为“幻觉”并不是批评,而是对这些系统运作方式的描述。如果你接受这一点,你就会发现,当我们通过约束条件引导这些幻觉时,它们反而能产生有意思的结果。就像之前提到的例子,如果系统在不同的文学语料上训练,它生成的内容依然是随机虚构,但发生在一个不同的可能性景观中。
对我来说,这正是这些系统有趣的地方:它们不追求知识,也不追求真理,而是开辟了受约束的虚构可能性。而且,这些经过设计的幻觉完全可以非常有创造力,任何有过致幻体验的人大概都能理解我说的意思。
Q4:请允许我继续深入这个议题。作为教育工作者,我们正面临相似的困境:您会允许学生提交完全由人工智能生成的作业吗?在这种情况下,我们应将其视作”幻觉”还是”想象”?又该如何引导学生正确认知这类产出?
A4:我的教学语境比较特殊,所指导的多是实践型艺术家,因此文本创作并非教学核心。我们更侧重材料创作、表演实践等多元形式。不过偶尔也会涉及写作任务,具体要看课程和作业安排,有时候我会说:“好,你可以尝试写作,但如果写得无聊,你就会不及格。”也就是说,你必须对自己的作品负责,而且它必须有趣、有吸引力。
Q5:非常感谢这场极具启发性的演讲。您逻辑严密地构建了三阶段论述框架。关于第二阶段的意义与无意义命题,我存在一些困惑:无意义内容的传递本身是否具有意义?还是原本有意义的视觉或物质内容的重复/再现反而变得无意义呢?
A5:我这里讲的“意义”,指的是某件事物因为某种原因对我比其他事物更重要的那种感受。比如说,我对食物感兴趣,那么某些食物类型对我来说就很有意思;但对别人而言,这可能只是社交媒体上拍晚餐的无聊行为。也就是说,意义非常主观,是一种重要性的关系,是一种注意力的关系,我选择看这个,而不是那个。
基本上,在生成式人工智能出现之前,每一张有人发布的照片,至少在一瞬间都是在传达“这值得被关注”,即便只是对自己,或者只是短暂的兴趣。然后,这种“重要性宣示”会通过点赞、分享、评论等反馈被放大,有时随时间变化,而算法推荐系统会捕捉到这种变化。比如:点赞多、分享多、评论多,那么你的内容在排名中上升,因为受欢迎程度是衡量意义的少数可量化方式之一。
而如果没有这种意图,不论是逻辑、语义还是象征层面的意义建构机制——我很难把机器生成的输出视作“有意义”。所以,我会在这里画出一个边界:某件事物是否有意义,关键在于它与生产者和观看者之间的关系,而不在于事物本身。同样的东西,对你来说可能非常有意义,但对我来说可能完全无意义。
Q6:您的论述很有意思,你在某种程度上已经让我信服了——生成式人工智能在艺术创作上确实有一些我没预料到的实用价值。不过,我仍然被困在一个问题上:如果创作意义的背后必须有意图,那意义的作用到底是什么?
或许我的核心疑问在于:我们如何区分在生成式艺术中发现的“意义”,与那种所谓的“糟糕艺术”之间的差别?后者就是有人按下按钮,然后生成结果,然后说“看,这不就很神奇吗?”但它真的有意义吗?
A6:我并不是想说生成式人工智能对你的下一个项目一定有好处,我觉得我们得回到之前提到的一个关键点:如何确保这些输出是高质量的思想或高质量的虚构,而不是那种中庸、安全的企业产品流水线。所以我认为,在这些例子中至少前两个以及第三个例子中,如果用标准模型去处理,是行不通的。它们探讨了约束条件,并思考在这些约束下你能做些什么,而这也让“幻觉”特性更为明显。因为它不再是某种全能化的实体或“化身的神”。
从艺术领域的狭义专业视角来看,艺术从来不仅仅是一幅挂在墙上的图像。它总是嵌入在更大的历史脉络、社会关系网络之中。比如,人们会买一张签名照片而不是明信片,尽管内容几乎相同。但在原作以及你与物件、与艺术家之间的关系中,包含了很多非信息性或元信息,这远远超出单纯“看起来怎么样”的层面。
因此对于我指导的纯艺术专业学生,我毫不担忧。真正让我担心的是那些做插画等工作的人,他们制作的图像往往缺乏上下文。而广义的艺术和文化,总是嵌入在遭遇、关系、历史、来源等之中。当你以这种方式去观看和理解它时,一个对象本身是否是生成的,就显得次要。生成的艺术本身可能很有趣,而且已经存在很长时间,但真正有意思的,往往是围绕它的整体概念体系,以及它与其他文化产物的关联,而不是单纯“看,这是一首诗”。我认为,文化的生成方式并不是这样简单。
讲者介绍
费利克斯·斯塔尔德(Felix Stalder)

费利克斯·斯塔尔德(Felix Stalder)现任苏黎世艺术大学教授,执教于美术学院“艺术与人工研究”专业。他的研究聚焦于文化、政治与技术动态的交汇点,尤其关注基于共同体的新型生产模式、版权制度、数据化进程、人工智能以及主体性转型等领域。除了学术工作外,他还是一位活跃的文化实践者,长期担任批判性网络文化重要平台“网时代”的协调人——从早期的邮件列表到如今在联邦宇宙中的节点。他是维也纳世界信息研究所与技术政治工作组的核心成员。其学术成果丰硕,重要著作包括:《数字团结》(2014年)、《数字状况》(2016年、2018年、2023年)、《共同体的美学》(2021年)、《数字无意识》(2021年)、《从共同体到NFT》(2022年)以及《具身数据实践中的当代性》(2025年)。更多信息可访问:http://felix.openflows.com/
