从玩具到工具：DALL-E 3 是对视觉艺术家及其他所有人的一次警示

AI图像合成在执行创意方面变得更加强大，并且它并没有放缓发展速度。

*由三个DALL-E 3 AI 艺术生成物合成：赫克力斯与鲨鱼搏斗的油画、宇宙女王的照片以及“棉花糖威胁”麦片的营销照片。*

在十月份，OpenAI向ChatGPT订阅用户广泛发布了其最新的AI图像生成器—DALL-E 3。DALL-E能够完成两年前看似荒谬的媒体生成任务，尽管它以出乎意料的详细创作令人愉悦，但也为一些人带来了不安。科幻小说早就预测到了这样的技术，但当这一切真正在我们眼前发生时，看到机器颠覆创意秩序感觉就是不同。

Ars Technica的创意总监Aurich Lawson表示：“在图像生成方面，不可能忽视AI的力量。随着视觉敏锐度的迅速提高和获得可用结果的能力，毫无疑问，它已经超越了小玩意或玩具的范畴，成为一个合法的工具。”

随着AI图像合成的出现，对许多人来说，媒体创作的未来似乎将通过能够复制任何艺术风格、格式或媒介的创意机器的帮助而来。媒体现实正变得完全流动和可塑。但是AI图像合成为何如此迅速变得更加强大，以及对于艺术家而言，这可能意味着什么呢？

利用AI来改进自身

首次报道DALL-E 3在OpenAI于九月底宣布推出它之后，自那时以来，人们已经广泛使用了它。对于刚刚关注的人，DALL-E 3是一个AI模型（神经网络），它使用一种称为潜在扩散（latent diffusion）的技术，逐渐从噪音中“识别”出图像，根据用户提供的书面提示，或者在这种情况下是由ChatGPT提供。它使用与其他重要图像合成模型相同的基础技术，如Stable Diffusion和Midjourney。

输入想要看到的描述，然后DALL-E 3就会创建它。

ChatGPT和DALL-E 3目前紧密合作，使AI艺术生成成为一种交互式和对话式体验。告诉ChatGPT（通过GPT-4大型语言模型）希望它生成什么，它为您编写理想的提示，并将它们提交给DALL-E后端。DALL-E返回图像（通常一次返回两张），会通过ChatGPT界面看到它们，无论是通过网络还是通过ChatGPT应用程序。

在许多情况下，ChatGPT会改变输出的艺术媒介，因此可能会看到相同的主题以一系列风格呈现，如照片、插图、渲染、油画或矢量艺术。还可以将生成的图像的宽高比从默认的正方形更改为“宽”（16:9）或“高”（9:16）。

OpenAI并没有透露用于训练DALL-E 3的数据集，但如果以前的模型是任何指示，很可能OpenAI使用了数亿张在线找到并从Shutterstock库获得许可的图像。为了学习视觉概念，AI训练过程通常将在线图像的描述（通过字幕、alt标签和元数据）中的词与图像本身相关联。然后，它以多维向量形式编码该关联。然而，这些由人类编写的爬取的字幕并不总是详细或准确，这导致了一些错误的关联，降低了AI模型遵循书面提示的能力。

为了解决这个问题，OpenAI决定利用AI来改进自身。正如在DALL-E 3研究论文中详细说明的那样，OpenAI团队通过使用GPT-4V，即GPT-4的视觉版本，生成由AI编写的合成图像描述，训练这个新模型超越其前身。有了GPT-4V编写的字幕，团队生成了更准确和详细的描述，供DALL-E模型在训练过程中学习。这在DALL-E的提示保真度方面产生了天翻地覆的变化，准确地呈现书面提示中的内容。（它对手的表现也相当不错。）

此外，与DALL-E 2和一些其他图像合成模型相比，DALL-E 3在呈现准确文本方面非常出色。这是由GPT-4V生成的高度详细字幕的另一种效果：“在构建我们的字幕生成器时，我们特别注意确保它能够在生成的字幕中包含在图像中找到的显著词语，”DALL-E 3团队在其论文中写道。“因此，DALL-E 3可以在提示时生成文本。”

DALL-E 3渲染文本的示例：“一位肌肉发达的野蛮人手持武器自信地站在一台CRT电视机旁，显示着‘Ars Technica’的文字。这个场景具有8K分辨率和戏剧性的工作室照明。”

DALL-E的文本渲染能力并非完美 – 有些单词可能会有额外或缺失的字符，而其他单词有时似乎会混淆。团队推测这是由于他们使用的标记编码器。标记是用于在机器学习模型中表示单词的单词片段（有时是整个单词），例如GPT-4和DALL-E 3的提示解释器。在某些情况下，对标记的依赖会导致对于某些单词或拼写的一种盲点，当单词块被合并成一个单一的标记时。

例如，单词“dog”在DALL-E 3中被表示为一个单一的标记，而不是三个字符（D-O-G），这可能出乎意料。“当模型在提示中遇到文本时，它实际上看到的是代表整个单词的标记，并且必须将这些标记映射到图像中的字母，”团队写道。“在未来的工作中，我们希望探索在字符级别的语言模型上进行调整，以帮助改善这种行为。”

对艺术家意味着什么？

到目前为止，已经看到了DALL-E 3的一些能力。它远远超过了一年前的技术水平，也使2021年的DALL-E 1相形见绌。这是一项技术上的胜利。但在没有星号的情况下谈论AI图像生成器仍然非常困难。这项技术具有极大的分歧性。对于一些人来说，这项技术代表了创意表达中的一项激动人心的发展，但对于其他人来说，它象征着冷漠和企业贪婪。

“我不想使用这种技术。这简直是抄袭的大杂烩,” 西雅图的插画家兼平面设计师Gwendolyn Wood在回答这个问题时表示。她经常使用非数字媒体，如水彩。 “我对设计它的人表示同情，但我认为它将进一步剥夺我们的世界充满欢乐的经验。这真的让我感到很难过。我希望手工艺术仍然是对人们重要的事物。”

通过提到抄袭，Wood指的是许多AI图像生成器已经在未经艺术家许可的情况下，使用从互联网上下载的受版权保护的作品碎片进行训练。在美国法律中，关于是否将AI模型训练用于爬取的作品属于公平使用的问题尚未解决，但这种做法使图像合成在许多艺术家看来像是一种对抗性技术，他们感到可能会被其替代。在过去一年中，很多媒体都报道了这种焦虑情绪。

为了解决这个问题，一些公司如Adobe（使用Firefly）和Getty Images已经仅仅在公共领域的艺术作品和他们拥有使用权的图像上训练了AI图像模型，这些图像是通过他们的库存照片档案进行授权的。但这并不是一个完美的解决方案，因为一些艺术家和摄影师并不认为公司使用他们的作品来训练替代品是公平或公正的。

在某种程度上，AI艺术是古老趋势的延续。几千年来，艺术方面的创新使人类更容易更快地创作复杂的艺术作品 – 金属凿子、纸张、画笔、批量生产的颜料、铅笔、相机、喷枪、数字照片编辑器和矢量插图软件在它们各自的时代都是革命性的。许多进步都与艺术品大规模生产的改进相辅相成，这是一些批评家曾经认为会降低艺术价值的发展。每一次进步都使表达思想更加迅速并使其传播更广泛。图像合成通过减少思想和执行之间的摩擦而延续了这一传统。

但根据Wood的说法，更快并不总是更好。她更喜欢通过手工创作艺术的令人满足且常常具有治疗效果的过程。

“我听到支持[AI艺术]的论点是，它会节省时间，使没有艺术培训的人能够创作引以为豪的艺术作品，并将他们的创造力变为现实，” Wood说道。“我对此的回应是，用于创作的时间并非浪费时间。这是对灵魂滋养至关重要的时间。” 她强调了她的艺术的手工制作元素：“每个人都应该用双手创造艺术！[AI艺术]并不是在给人们一项技能，而是在夺走他们本可以在物理上创造艺术时体验到的更加愉悦的经历，如果他们足够谦卑地享受学习的过程。”

虽然AI艺术可能感觉像是艺术技术的先前进步的延续，但这一次感觉不同，因为我们正在将创意过程的一部分外包给机器。在此之前，创意只来自人类 – 无论是来自您自己的大脑，对话中，书籍中还是通过视听交流。现在，机器也有了创意。这是探索一种前所未有的合作关系的第一步。

“品味是新技能” – AI艺术作为一种可达性工具

尽管手工艺术听起来很有益，但并非每个人都能够因为精神或身体限制而亲自创作艺术。在过去的一年里，人们听到了一些残疾人士的故事，他们喜欢使用图像合成以表达自己，这是他们以其他方式无法做到的。

“我患有第四阶段的癌症，AI艺术实际上给了我继续与之战斗的理由，” Reddit上的用户bodden3113在2022年12月写道。“我不再需要等到我停止化疗才能弄清楚如何画头发，或者决定是否要学习，如果我活不到足够长的时间来在纸上看到我心中所想的东西…为什么我们必须以一直以来的方式去做事呢？”

一位名叫Claire Silver的艺术家自2018年以来一直在与AI艺术进行协作，并因此而声名鹊起，成为第一位与WME经纪公司签约的AI增强艺术家。“我患有一种慢性、致残性的疾病，这种经历激发了我对提升技能以支持表达的热爱，”她在接受采访时表示。“我在贫困中长大，通过我的AI艺术改变了我家庭的生活。”

*“Skins”，由Claire Silver创作的一件AI与人类共同创作的艺术品。*

Silver认为，大多数对AI艺术的批评是短视的。技术存在，它将基于如何使用它而产生不可否认的积极和消极影响。“AI的变革性质就像穴居人发现火一样。火并不是好事或坏事。它只是存在。对于我们的物种来说，这是一个智人时刻，无论好坏，我们都无法回到黑暗中。”

鉴于技术在整个历史上对增强人类艺术的作用不断发展，也许我们已经混淆了过程的含义和内容的含义。“在我看来，适应AI时代意味着找到使我们成为人类的东西并投入其中，”Silver表示。“艺术家们已经学会，技能才是重要的，虽然值得钦佩，但技能已经统治了几千年。有了新的视角。”

也许我们对耗时劳动和高度艺术技能的价值过于关注，以至于阻止了人们表达自己，她感到困惑。“对我来说，艺术不是关于技能。它关乎情感、想象力、意义 – 这些使我们成为人类的东西，”她说。“在技术能力之上重视这些东西的未来真的那么糟吗？在有了无限的答案机器的情况下，那些有想象力和洞察力提出正确问题的人将会成功。有了AI，品味就是新的技能。”

Aurich Lawson以不同的角度看待AI艺术中的技能问题，认为有些人比其他人更善于使用生成工具。“可能会出现一类人，他们是AI驯兽师，使用大量工具和经验来航行这些领域，但他们最终将会发展出与那些精通诸如Photoshop等工具的专业人士类似的技能集和流程。”

AI艺术和就业

即使AI艺术使人类表达变得毫不费力，借用火的比喻，它潜在地可以像创造一样轻松地摧毁。“工业革命结束了许多工作，同时也创造了许多新工作，”Silver说。“这就是进步的本质。你要适应。”

技术总是使商业生产变得更便宜更快。如果对于一家公司来说，通过在机器上输入文字并等待10秒比雇佣一个需要六个月时间并花费20000美元的人类艺术家更便宜，他们很可能每次都会选择机器。

“我感到非常幸运我不是一名公司艺术家。我直接向那些欣赏我艺术制作方式的个人销售，”传统艺术家Gwendolyn Wood表示。“因为这个原因，向以短期利润为重点的公共公司销售艺术品的人的工作可能会很容易减少。”

*由AI生成的DALL-E 3图像，画面中一位艺术家坐在一旁，而机器为他绘画。*

Lawson也同意。“我认为如果你的工作只是做插图，你的客户对结果并不是非常挑剔，只是想填充空间 – 你可能确实有理由感到受到威胁，” Lawson说。但他仍然认为人类在其中有一席之地。“我认为对AI生成的能力仍然被夸大了，因为与真实客户一起工作和商业工作的循环不仅仅是要能够获得一个看起来精致的结果，”他说。“在经过批准和进行更改时，提示是无法拯救你的。”

在结构上，我们是否准备好迎接替代创意人类可能带来的变革？Wood认为，这项技术可能潜在地对人们有益，但现在，“我们的社会没有基础设施来支持由此产生的有偿工作的减少，”她说。“在另一个世界中，人们能够得到舒适和空闲时间的保障，以及支付租金的能力，这是一项非常有趣的技术。”

对公共领域的潜在福利

在美国，纯粹由AI生成的艺术作品目前无法受到版权保护，属于公共领域。然而，这并非绝对，因为美国版权办公室支持允许对由人类明显修改或纳入更大作品的AI生成艺术品进行版权保护的观点。

对于一些未来可能利用AI艺术的公司，缺乏版权保护可能并非问题，因为AI生成的艺术作品可能服务于特定的商业广告目的，复制它可能毫无价值，或者它可能包含受商标法保护的内容。目前，DALL-E 3试图阻止商业知识产权被包含在生成的图像中，但开源图像合成模型（如Stable Diffusion）可以绕过这些问题。

对于其他所有人来说，突然之间有了一个庞大的新的公共领域媒体池，而且通常是“开源”的——也就是说，许多人分享用于创建艺术作品的提示和配方，以便其他人可以复制并在此基础上进行创作。这种共享精神是例如Midjourney社区在Discord上变得受欢迎的原因，人们通常自由地查看彼此的提示。

当一些迷人的AI生成的螺旋图像在九月份走红时，Reddit上的AI艺术社区迅速借用了这一趋势，因为最初的创作者公开详细介绍了他的工作流程。人们创造了自己的变体，并简化了创建这些视觉幻觉的工具。这是“开源创意媒体”或“开源生成媒体”景观未来可能的一个很好的例子（用一些术语来玩）。

有一天，这种现实可能会被法令或司法行动修改，但在那之前，AI艺术作品可能会成为对一些人认为繁琐和过于限制性的版权制度的一种解药。另一方面，正如之前所报道的，也有人主张对AI艺术作品进行版权保护。这个问题尚未得到完全解决。

在未来，每个人都可能成为创意总监或“CEO”

对于新事物很容易持消极态度，但也许还有另一种路径。与其说是AI让人类艺术家灭绝，不如说艺术家可以利用AI驱动的能力为他们的作品注入新的复杂性。例如，有一天，人类创意可能会指挥一支由创意AI代理组成的军队来执行他们的愿景，就像安迪·沃霍尔依赖The Factory的下属来执行他的著名艺术品一样。艺术家可能不是被取代，而是变得更加强大。

如果AI的进展沿着目前看到的轨迹继续发展，那么每个在家里使用AI机器的创意人士都有可能能够像今天大型创意公司的首席执行官一样指挥劳动资源，只要他们知道如何驾驭它。在这种假设的情景中，每个人类都可以启动一个庞大的人工劳动力在其下属，为其效劳。这将人类潜力提高到一个几乎无法想象的新水平，很难预测这种能力将引领我们的文明走向何方。但这是在上一层复杂性的基础上建立的下一层，就像我们在整个历史中一直在做的那样。

几千年来，我们告诉自己，作为人类，我们是动物中独特而特殊的，因为我们具有创造力——我们是制造工具的人。我们有语言和语法。我们能够推理。在过去的一年中，我们看到我们作为智慧宇宙中心的地位不再得到保证，似乎由于新的机器学习研究，这一地位每个月都在逐渐被侵蚀。这是一个哥白尼时刻，类似于将地球从宇宙中心降级的那一刻。这并不适合每个人。“这几乎感觉像是[AI]开发者对某种我真的无法理解的原因而摧毁了人类创造的乐趣，”Wood说。

尽管有一些激进的预测，像Lawson这样的一些艺术家仍然看到未来存在限制。“我从事商业设计已经几十年了，我的工作最终是关于解决问题，”Lawson说。“AI不能做到这一点。而且我目前看不到它能够做到这一点的未来。除非有一些绝对的世代飞跃。数字工具传统上既赋予了人们力量，也使事情变得更容易更快。我毫不怀疑AI将继续这一趋势。一些工作可能需要更少的人，或者人们需要适应新的现实。但我不认为AI会在创意领域引发灾难。迄今为止，人类的触感尚未被任何东西取代。”

这让我们回到DALL-E 3。虽然它的输出并不完美，但它能够迅速结合人类历史范围内的文化参考，已经让人感到超人类。目前，DALL-E 3对于个人创意娱乐（如果你觉得生成假的1980年代消费品的图像很有趣）和在社交媒体上插图已经足够强大，而且它可能可以替代基本的人工创建插图，执行简单的任务。

也许关于DALL-E 3最让人瞠目结舌的认识之一是，可以轻松想象一个未来，在那个未来，当前的不足之处被克服，你将得到能够轻松生成任何风格的视觉图像的AI代理，这些图像在质量上完全无法与人类创造的区分开。这将产生深远的副作用，如加速虚假信息的传播，滋生滥用，让我们质疑我们共同的文化现实，并可能威胁历史记录，正如在其他地方所讨论的那样。随着图像以无限的数量和保真度生成，未来可能会有远远超过真实事件的不可区分的假照片。

而且，DALL-E 3并不是唯一的选择。Stable Diffusion、Adobe Firefly和Midjourney等都在不断提高质量和提示准确性。

无论未来如何，我们可能都必须接受好的和坏的，然后适当处理每一个。1999年，法国文化理论家保罗·维里约写道：“当你发明船时，你也发明了沉船；当你发明飞机时，你也发明了飞机失事；当你发明电时，你也发明了电击… 每一项技术都带有自己的负面效应，它与技术进步同时被发明出来。”