大型语言模型(LLMs)在多大程度上可能“记忆”它们的训练输入,长久以来一直是学者们关注的问题。最近的实证研究表明,在某些情况下,LLMs能够复制或仅作轻微修改出现在它们的训练集中的大量文本段落。
例如,Milad Nasr及其同事在2023年的一篇论文中指出,LLMs可以被激发来泄露私人信息,如电子邮件地址和电话号码。Carlini及其合著者最近展示,较大的聊天机器人模型(尽管较小的模型则不然)有时会逐字逐句地复述大段文本。
同样,近期《纽约时报》对OpenAI提起的诉讼中,展示了多个例子,其中OpenAI的软件几乎逐字地重新创建了《纽约时报》的报道(红色文字为逐字逐句)。
诉讼中的一份证据显示 OpenAI 的GPT-4的输出看似抄袭
我们将这种近乎逐字逐句的输出称为“抄袭性输出”,因为如果是人类创建的,我们会直接将其视为明显的抄袭实例。除了稍后的几点简要评论外,我们将其交由法律专家来思考这些材料在完整法律背景下可能如何处理。
用数学的语言来说,这些近乎逐字复制的例子是存在性证明。它们并不直接回答这样的抄袭性输出发生的频率或者确切情况下它们发生的条件是什么的问题。
这些结果提供了有力的证据…表明至少一些生成式AI系统可能会产生抄袭性的输出,即使在没有直接要求的情况下,也可能使用户面临版权侵权的指控。
这样的问题很难精确回答,部分原因是因为LLMs是“黑匣子”——在这些系统中,我们并不完全理解输入(训练数据)与输出之间的关系。更重要的是,输出可以在一个瞬间内不可预测地变化。抄袭性回应的普遍性很可能严重依赖于模型的大小和训练集的确切性质。由于LLMs从根本上是黑匣子(即使对于它们的制造者来说,无论是开源还是不开源),关于抄袭普遍性的问题可能只能通过实验来回答,甚至可能只是暂时的。
尽管普遍性可能有所不同,但仅仅抄袭性输出的存在就提出了许多重要问题,包括技术问题(是否可以采取措施抑制这样的输出?)、社会学问题(新闻业可能会因此发生什么变化?)、法律问题(这些输出是否算作版权侵权?)以及实际问题(当最终用户使用LLM生成某些内容时,用户能否确信他们没有侵犯版权?有没有办法让希望不侵权的用户确信他们没有侵犯版权?)。
《纽约时报》诉OpenAI的诉讼可能确实证明了这类输出构成版权侵权。当然,律师们可能有不同的看法,但很明显,这类输出的存在以及那个特定诉讼的结果对于生成性AI领域未来可能产生重大的财务和结构影响。
在视觉领域也可以提出完全相同的问题。基于版权材料,可以诱使图像生成模型产生抄袭性输出吗?
案例研究:Midjourney v6中的抄袭性视觉输出
就在《纽约时报》诉OpenAI的诉讼被公之于众之前,我们发现答案显然是肯定的,即使没有直接寻求抄袭性输出。以下是本文的第二作者(一位视觉艺术家,曾参与多部重要电影的制作,包括《黑客帝国:复活》、《蓝甲虫》和《饥饿游戏》,并与好莱坞众多知名制片厂(包括漫威和华纳兄弟)合作)从Midjourney V6的“alpha”版本中引出的一些示例。
在一番实验后,Southen发现实际上很容易生成许多抄袭性输出,只需使用与商业电影相关的简短提示(提示已显示)。
Midjourney 制作的图像与著名电影和视频游戏中的镜头几乎相同。
我们还发现,卡通人物也可以轻易地复制,正如这些生成的《辛普森一家》的图像所证实的那样。
鉴于这些结果,几乎可以确定Midjourney V6已经被训练使用了受版权保护的材料(无论它们是否已经被许可,我们都不清楚),并且他们的工具可以用来创建侵权输出。
在此之后,我们(Marcus和Southen)开始合作,并进行进一步的实验。
视觉模型可以通过间接提示生成商标字符的近似复制品
在上述许多例子中,我们直接引用了一部电影(例如,《复仇者联盟:无限战争》);这证明了Midjourney能够有意识地重新创建受版权保护的材料,但仍然存在一个问题,即是否有人可能在用户没有故意这样做的情况下侵权。
《纽约时报》投诉中最引人注目的部分之一是,原告证明了可以在完全不提及《纽约时报》的情况下引出抄袭性回应。原告并没有用“你能否按照《纽约时报》的风格写一篇关于某某事的文章”的提示来询问系统,而是仅仅通过提供《纽约时报》故事的前几个词来引出了一些抄袭性回应,就像这个例子中所示。
一项诉讼的证据显示,当提示实际文章的前几个单词时,GPT-4 生成了看似抄袭的文本。
这样的例子特别引人注目,因为它们提出了一个可能性,即最终用户可能无意中产生侵权材料。然后我们询问在视觉领域是否可能发生类似的情况。
答案是肯定的。在每个样本中,我们都展示了一个提示和一个输出。在每张图像中,系统生成了清晰可识别的角色(如曼达洛人、达斯·维达、卢克·天行者等),我们假设这些角色既受版权保护又受商标保护;在任何情况下,源电影或具体角色的名字并没有直接被提及。关键是,系统并没有被要求侵犯版权,但系统仍然生成了潜在的侵权艺术品。
我们观察到这种现象在电影角色和视频游戏角色中都有出现。
不给予直接指示引出电影般的画面
在我们与Midjourney的第三次实验中,我们询问其是否能够在没有直接指示的情况下引出整个电影画面。再次发现答案是肯定的。(最上面的那张来自Hot Toys的拍摄,而非电影。)
Midjourney 制作的图像与著名电影中的特定帧非常相似。
最终,我们发现仅使用一个单词的提示(不包括常规参数),而该单词并不特定于任何电影、角色或演员,都会产生明显的侵权内容:那个词就是“screencap”(屏幕截图)。下面的图像就是使用该提示创建的。
这些图像均由 Midjourney 制作,与电影画面非常相似。它们是在提示“screencap”的情况下制作的。
我们完全预期Midjourney将立即修补这个特定的提示,使其失效,但生成潜在侵权内容的能力是显而易见的。
在两周的调查过程中,我们发现了数百个来自电影和游戏的可识别角色的例子;我们很快将在YouTube上发布一些进一步的例子。以下是我们认出的一部分电影、演员和游戏的列表。
对Midjourney的影响
这些结果为Midjourney已经在受版权保护的材料上进行了训练提供了有力的证据,并确立了至少一些生成性AI系统可能会在没有直接被要求的情况下产生抄袭性输出,从而可能使用户面临版权侵权的指控。最近的新闻报道也支持了同样的结论;例如,一项诉讼提到了一份归因于Midjourney的电子表格,其中包含了超过4,700位艺术家的名单,据信他们的作品被用于训练,而这些作品很可能没有得到许可。
Midjourney的源材料中有多少是未经许可使用的受版权保护的材料?我们并不确定。许多输出确实与受版权保护的材料相似,但该公司并没有透明地提供其源材料的信息,也没有明确哪些是得到了适当许可的。(当然,这些信息可能在法律发现过程中披露出来。)我们怀疑至少有部分材料并未获得许可。
事实上,该公司的一些公开评论对这个问题持有轻视态度。当一位Forbes记者问到,“你是否征得了仍在版权保护下的生者或作品的同意?”时,Midjourney的创始人兼首席执行官David Holz对版权持有者的权利表达了某种程度的关注:
实际上没有办法获得一亿张图片并知道它们的来源。如果图片中嵌入了关于版权所有者的元数据或其他信息,那将是很酷的。但这并不存在;没有这样的注册。没有办法在互联网上找到一张图片,然后自动追踪到一个所有者,并有任何方式对其进行验证。 如果任何源材料未经许可使用,那么在我们看来(作为非律师),这可能会使Midjourney面临来自电影制片公司、视频游戏出版商、演员等的大量诉讼。
版权和商标法的核心是限制未经授权的商业再利用,以保护内容创作者。由于Midjourney收取订阅费,并且可能被视为与这些制片公司竞争,我们可以理解为什么原告可能会考虑提起诉讼。(实际上,该公司已经被一些艺术家起诉了。)
当然,并不是每一个使用受版权材料的作品都是非法的。例如,在美国,公平使用的四个原则允许在某些情况下使用可能构成侵权的作品,例如,如果使用是简短的,并且用于批评、评论、科学评价或模仿的目的。像Midjourney这样的公司可能希望依赖这一辩护理由。
然而,从根本上讲,Midjourney是一个大规模销售订阅的服务。一个个人用户可能会针对潜在侵权的特定实例提出辩护,例如,他们使用《沙丘》中的角色是为了讽刺或批评,或者是出于自己的非商业目的。(许多被称为“粉丝小说”的作品实际上被认为是版权侵权,但在非商业情况下通常会被容忍。)Midjourney是否能够大规模地提出这种论点是另一个完全不同的问题。
一位在X网站上的用户指出,日本允许AI公司在受版权保护的材料上进行训练。虽然这一观察是正确的,但它是不完整和过于简化的,因为该训练受到了直接来源于相关国际法的未经授权使用的限制(包括伯尔尼公约和TRIPS协定)。无论如何,日本的立场似乎不太可能在美国法院中产生任何影响。
更广泛地说,有些人认为各种信息都应该是免费的。在我们看来,这种观点不尊重艺术家和创作者的权利;没有他们的作品,这个世界将会更加贫瘠。
此外,这让我们想起了在Napster的早期日子里提出的论点,当时的歌曲在点对点网络上被共享,而没有为他们的创作者或出版商提供任何补偿。最近的声明,如“实际上,版权不能用Stable Diffusion或Midjourney这样强大的模型来执行——即使我们在法规上达成一致,也无法实现”,是这一系列论点的现代版本。
我们不认为大型生成性AI公司应该假设版权和商标法律将不可避免地围绕他们的需求被重新制定。
值得注意的是,最终,Napster因大规模侵权而被法院关闭,这是在Metallica和美国唱片业协会(RIAA)的诉讼之后发生的。流媒体的新商业模式应运而生,在这一模式中,出版商和艺术家(远远不如我们希望的那样)得到了一部分收益。
人们所熟知的Napster基本上在一夜之间消失了;公司本身破产了,其资产,包括其名称,被卖给了一个流媒体服务。我们不认为大型生成性AI公司应该假设版权和商标法律将不可避免地围绕他们的需求被重新制定。
如果像Disney、Marvel、DC和Nintendo这样的公司效仿《纽约时报》的做法,因版权和商标侵权而提起诉讼,他们完全有可能获胜,就像RIAA之前所做的那样。
加剧这些问题的是,我们发现Midjourney的一名高级软件工程师在2022年2月参与了一次关于如何通过“精细调整的代码”来逃避版权法的对话。另一个可能或可能没有为Midjourney工作的参与者随后说:“在某个时候,真的变得不可能追踪在版权法眼中什么是衍生作品。”
据我们了解,惩罚性赔偿可能会很大。如前所述,近期有消息称Midjourney可能有意创建了一个庞大的艺术家名单进行训练,而这些训练可能是未经许可或补偿的。考虑到当前的软件似乎与源材料非常接近,很容易想象会有一个集体诉讼。
此外,Midjourney显然试图压制我们的发现,在Southen报告了他的初步结果后,封禁了他的服务(甚至没有退还他的订阅费),并在他创建了一个新账户后再次封禁,从该账户中报告了更多的结果。然后,在圣诞节前夕,该公司显然更改了其服务条款,插入了新的措辞:“您不得使用本服务试图侵犯他人的知识产权,包括版权、专利或商标权。这样做可能会导致您受到法律制裁或永久封禁。”
这一变化可能被解释为是在打击或甚至阻止生成性AI的红队调查这一重要且常见的实践,这一实践是2023年与白宫达成协议的几家主要AI公司承诺的一部分。(Southen为了完成这个项目创建了另外两个账户;这些账户也被封禁,订阅费也没有退还。)
我们认为这些做法——封禁用户和打击红队活动——是不可接受的。确保工具有价值、安全且不具有剥削性的唯一方法是允许社区进行调查;这正是为什么社区通常都同意红队活动是AI发展的一个重要部分,特别是因为这些系统迄今为止还远未被完全理解。
推动生成性AI公司收集更多数据并使其模型变得更大的压力,可能也使得这些模型更容易产生抄袭性的内容。
我们鼓励用户考虑使用其他替代服务,除非Midjourney撤回那些打击用户调查版权侵权风险的政策,尤其是考虑到Midjourney对其数据来源并不透明。
最后,作为一个科学问题,我们注意到Midjourney生产的图像比当前任何其他图像生成软件都要详细。一个悬而未决的问题是,随着功能的增强,创建抄袭图像的倾向是否也在增加。
我们上面提到的Nicholas Carlini关于文本输出的数据以及我们自己的经验和在X网站上看到的一个非正式报告都暗示了这一点。从直观上讲,系统拥有的数据越多,它就越能够捕捉到统计相关性,但同时也可能越容易复制某些内容。
换句话说,如果这种推测是正确的,那么正是推动生成性AI公司收集越来越多的数据并使其模型变得越来越大(以使输出更接近人类)的压力,可能也使这些模型更具有抄袭性。
另一个平台中的抄袭性视觉输出:DALL-E 3
一个明显的后续问题是,我们记录的这些事物在其他生成性AI图像创建系统中有多大程度的真实性?我们接下来的一系列实验询问了我们是否在OpenAI的DALL-E 3(通过Microsoft的Bing提供)上找到了与Midjourney相同的情况。
正如我们最近在Substack上报告的那样,答案再次明确是肯定的。与Midjourney一样,DALL-E 3能够创建与商标角色近乎相同的抄袭性表示,即使这些角色没有被明确提及。
使用这个简单的两个词的提示“animated toys”[右下角],DALL-E 3也创造了一个充满潜在商标侵权的世界。
OpenAI的DALL-E 3,与Midjourney一样,似乎已经使用了大量的受版权保护的资源。与Midjourney的情况相似,OpenAI似乎很清楚其软件可能侵犯版权的事实,并于11月提供了赔偿用户(有一些限制)免受版权侵权诉讼的担忧。鉴于我们在这里发现的规模,潜在的成本是相当可观的。
复制这些现象有多难?
与任何随机系统一样,我们不能保证我们的特定提示会导致其他用户获得相同的输出;此外,有些猜测称OpenAI一直在实时更改其系统,以排除我们报告的某些特定行为。尽管如此,我们最初的报告在两天内已被广泛复制,包括其他商标实体甚至在其他语言中。
下一个问题是,解决这些问题有多难?
可能的解决方案:删除版权材料
最干净的解决方案将是重新训练图像生成模型,而不使用版权材料,或者限制训练只在已经得到适当许可的数据集上进行。
需要注意的是,一个明显的替代方案——只有在收到投诉后才移除版权材料,类似于YouTube上的撤下请求——比许多读者可能想象的要难以实施得多。特定的版权材料不能简单地从现有模型中移除;大型神经网络不是可以轻易删除有问题记录的数据库。按照目前的情况,相当于撤下通知的操作将需要在每个实例中进行(非常昂贵的)重新训练。
尽管公司显然可以通过重新训练他们的模型,不使用任何未经许可的材料来避免侵权风险,但许多公司可能会考虑其他方法。开发者可能会尝试避开许可费,并避免大量的重新训练成本。此外,没有版权材料的情况下,结果可能会更差。
生成性AI供应商因此可能希望修补他们现有的系统,以限制某些查询类型和某些输出类型。我们已经看到了一些这方面的迹象(下文),但我们认为这是一场艰难的战斗。
我们看到解决抄袭图像问题的两种基本方法,而不重新训练模型;这两种方法都不容易可靠地实施。
可能的解决方案:过滤可能侵犯版权的查询
对于过滤出有问题的查询,一些目标非常容易实施(例如,不生成Batman)。但其他情况可能更为微妙,甚至可能涉及到多个查询。
经验表明,文本生成系统中的防护栏在某些情况下可能同时过于宽松和过于限制。努力修补图像(最终是视频)生成服务可能会遇到类似的困难。例如,我的朋友Jonathan Kitzen最近向Bing查询“在荒凉的日晒地貌中的一个厕所”。Bing拒绝了他的请求,反而返回了一个令人困惑的“检测到不安全的图像内容”的标志。此外,正如Katie Conrad所展示的,Bing关于其创建内容是否可以合法使用的回复有时是非常误导的。
目前,已经有在线指南提供了如何绕过DALL-E 3的OpenAI防护栏的建议,如“包括可以区分角色的具体细节,如不同的发型、面部特征和身体纹理”以及“使用暗示原始内容但使用独特的色调、图案和布局的颜色方案”。像下面Reddit上报道的Brad Pitt的例子这样难以预测的情况可能是无穷无尽的。
可能的解决方案:过滤源材料
如果艺术生成软件能够列出其来源,让人们判断最终产品是否是衍生的,那将是很好的。但由于当前系统在其“黑箱”本质中过于不透明,这是不可能的。当我们在这样的系统中获得输出时,我们不知道它与任何特定输入集之间的关系。
潜在侵权输出的存在实际上是另一个问题的证据:未经同意使用受版权保护的人类作品来训练机器。
目前没有任何服务提供拆解输出与特定训练示例之间关系的功能,我们也没有看到任何令人信服的演示。如我们所知,大型神经网络将信息分解成许多小的分布式片段;已知重建来源是极其困难的。
作为最后的手段,X用户@bartekxx12尝试使用ChatGPT和Google反向图像搜索来识别来源,结果是好坏参半(但并非完全失败)。尚需进一步观察此类方法是否能够可靠地使用,特别是与我们在实验中使用的材料相比更为最近和不太为人知的材料。
重要的是,尽管一些AI公司和一些维护现状的人士建议过滤出侵权输出作为可能的补救措施,但这样的过滤器绝不应被视为一个完整的解决方案。潜在侵权输出的存在实际上是另一个问题的证据:未经同意使用受版权保护的人类作品来训练机器。为了遵循旨在保护知识产权和人权的国际法意图,没有任何创作者的作品应该在未经同意的情况下被用于商业训练。
这一切为何重要,如果每个人都已经认识到马里奥呢? 假设你要求一个管道工的图片,结果得到的是马里奥。作为用户,你难道不能自己舍弃这些马里奥的图片吗?X用户@Nicky_BoneZ生动地描述了这一点:
每个人都知道马里奥长什么样。但没有人会认出Mike Finklestein的野生动物摄影。所以当你说“一个超级超级锐利、美丽的照片,展示一只水獭从水中跃起”,你可能并没有意识到这个输出实际上是Mike冒雨待了三周才拍摄的真实照片。 正如同一用户指出的,像Finklestein这样的个体艺术家也不太可能有足够的法律团队来对抗AI公司,无论其合法性如何。
另一位X用户也类似地讨论了一个例子,他的朋友使用“60年代风格吸烟的男人”的提示创作了一张图片,并在视频中使用;这位朋友并不知道他们刚刚使用了一张与Getty Image中的Paul McCartney照片几乎相同的照片。
这些公司很可能还会引起美国联邦贸易委员会以及全球其他消费者保护机构的关注。
在一个简单的绘图程序中,用户创作的任何东西都属于他们,除非他们故意导入其他材料。绘图程序本身从未侵犯过版权。但在生成性AI中,软件本身显然有能力创建侵权材料,并且在未通知用户可能存在侵权风险的情况下这样做。
通过Google图像搜索,你会得到一个链接,而不是表示为原创艺术品的东西。如果你通过Google找到了一张图片,你可以跟随那个链接来确定该图片是否在公共领域中,或来自一个库存代理等。但在生成性AI系统中,邀请的推理是创作是用户可以自由使用的原创艺术品。并没有提供艺术品是如何创建的明确说明。
除了服务条款中隐藏的一些语言外,没有警告表示侵权可能是一个问题。据我们所知,没有任何警告指出任何特定的生成输出可能存在侵权,并因此不应用于商业目的。正如最近因伦理关注而离开Stable Diffusion的音乐家和软件工程师Ed Newton-Rex所说,
用户应该期望他们使用的软件产品不会导致他们侵犯版权。而在当前流传的多个例子中,用户不可能知道模型的输出是某人的版权作品的复制品。 如风险分析师Vicki Bier所言,
“如果工具没有警告用户输出可能受版权保护,那么用户如何能承担责任?AI可以帮助我侵犯我从未见过、也无理由知道它是受版权保护的材料。” 事实上,没有公开可用的工具或数据库供用户咨询以确定可能的侵权情况,也没有任何指示用户如何可能这样做。
通过对用户和未经同意的内容提供者施加过度、不寻常且未充分解释的负担,这些公司很可能还会引起美国联邦贸易委员会以及全球其他消费者保护机构的关注。
伦理和更广泛的视角
软件工程师Frank Rundatz最近提出了一个更广泛的视角。
总有一天,我们会回头看,惊讶于一个公司竟然有胆量复制所有的世界信息,并使人们违反这些作品的版权。 Napster所做的只是使人们能够以点对点的方式传输文件。他们甚至没有托管任何内容!Napster甚至开发了一个系统来阻止其用户99.4%的版权侵权,但仍然被关闭,因为法庭要求他们停止100%。 OpenAI扫描并托管所有内容,为其用户出售访问权限,甚至会为付费用户生成衍生作品。 Midjourney当然也是如此。
斯坦福大学教授Surya Ganguli补充说:
我认识的许多大型科技公司的研究人员正在研究AI如何与人类价值观对齐。但从直觉上说,这样的对齐是否应该涉及为提供训练数据的人们通过他们的原创、受版权保护的输出进行补偿呢?(这是一个价值观问题,而不是法律问题)。 延伸Ganguli的观点,除了知识产权和艺术家权利之外,还有其他关于图像生成的担忧。类似的图像生成技术被用于创建儿童性虐待材料和非自愿的深度假视频。在AI社区认真考虑将软件与人类价值观对齐的程度上,开发法律、规范和软件以对抗这种用途是至关重要的。
总结
几乎可以确定的是,像OpenAI和Midjourney这样的生成性AI开发者已经用受版权保护的材料训练了他们的图像生成系统。两家公司都没有透明度;Midjourney甚至因我们调查他们培训材料的性质而三次封禁了我们。
OpenAI和Midjourney都完全有能力生产看似侵犯版权和商标的材料。这些系统在这样做时并不通知用户。他们不提供任何关于所生成图像来源的信息。用户可能不知道,当他们生成一张图片时,他们是否侵犯了版权。
除非并直到有人提出一个技术解决方案,要么准确报告来源,要么自动过滤出绝大多数版权侵犯,否则唯一的伦理解决方案是限制生成性AI系统只训练他们已经合法许可的数据。图像生成系统应该被要求许可用于培训的艺术,就像流媒体服务被要求许可他们的音乐和视频一样。
OpenAI和Midjourney都完全有能力生产看似侵犯版权和商标的材料。当这样做时,这些系统并没有通知用户。
我们希望我们的发现(以及其他已经开始测试相关场景的人们的类似发现)将促使生成性AI开发者更加仔细地记录他们的数据来源,仅限于合法许可的数据,仅在获得同意的情况下将艺术家包括在训练数据中,并对艺术家的作品进行补偿。从长远来看,我们希望将开发出具有强大艺术工具功能的软件,但不会剥削未经同意的艺术家的艺术。
尽管我们在这里没有深入探讨,但我们完全预期,当生成性AI应用于其他领域,如音乐生成时,类似的问题也将出现。
结果表明,生成性AI系统可能会定期产生剽窃的输出,无论是书面的还是视觉的,都没有透明度或补偿,这种方式给用户和内容创作者带来了不应有的负担。我们认为潜在的诉讼可能是巨大的,并且整个企业的基础可能建立在伦理上不稳定的基础上。