即将到来的生成式人工智能版权清算

美国的版权法是一件复杂的事情。我们这些不是律师的人很难弄清楚它的真正含义，以及它能保护什么和不能保护什么，这是可以理解的。数据科学家不会花很多时间考虑版权问题，除非我们为开源项目选择许可证。即便如此，有时我们只是跳过这一点，并没有真正处理它，尽管我们知道我们应该这样做。但法律界开始密切关注版权与生成式人工智能的交叉，这可能会对我们的工作产生真正的影响。在我们谈论它如何影响生成人工智能世界之前，让我们回顾一下版权的真相。

版权

美国版权法与所谓的“原创作品”有关。这包括以下类别的东西：文学；音乐的戏剧性的哑剧和舞蹈作品；绘画、图形和雕塑作品；音像作品；录音；衍生作品；汇编；建筑工程。
内容必须是书面的或文档化的，才能具有版权。“想法是不可版权保护的。只有有形的表达形式（如书、戏剧、绘画、电影或照片等）才可版权保护。一旦你以固定的形式表达你的想法——比如数字绘画、录制的歌曲，甚至在餐巾纸上涂鸦——如果它是原创作品，它就会自动受到版权保护。”——电子前沿基金会
受到保护意味着只有版权持有人（作者或创作者、继承权利的后代或权利的购买者）才能做这些事情：制作和销售作品的副本，从原作中创作衍生作品，以及公开表演或展示作品。
版权并不是永恒的，它会在一定时间后结束。通常，这是作者去世后70年或内容发布后95年。（1929年之前的任何东西在美国通常都属于“公共领域”，这意味着它不再受版权保护。）

为什么版权存在？最近的法律解释认为，重点不仅仅是让创作者致富，而是鼓励创作，让我们拥有一个包含艺术和文化创造力的社会。基本上，我们与创作者交换金钱，这样他们就有动力为我们创造伟大的东西。这意味着许多法院在审理版权案件时会问，“这种复制品是否有助于创造、艺术、创新的社会？”在做出判决时也会考虑到这一点。

合理使用

此外，“合理使用”并不是无视版权的免费通行证。有四项测试可以决定内容的使用是否“合理使用”：
第二次使用的目的和特点：你是在做一些创新和不同的内容，还是只是复制原作？你的新事物本身有创新性吗？如果是这样，它更有可能是合理使用。此外，如果你的用途是为了赚钱，那就不太可能是合理使用。
原创的本质：如果原创是有创意的，那么很难在合理使用的情况下打破版权。如果只是事实，那么你更有可能合理使用（想想引用研究文章或百科全书）。
使用量：你在复制整个东西吗？或者只是一段或一小段？尽可能少地使用对合理使用很重要，尽管有时你可能需要在衍生作品中大量使用。
效果：你是在从原作中窃取客户吗？人们会购买或使用你的副本而不是购买原件吗？创作者会因为你的复制而赔钱或失去市场份额吗？如果是这样的话，这很可能是不合理的使用。（即使你没有赚到钱，这也是相关的。）

你必须满足所有这些测试才能得到公平使用，而不仅仅是一两个。当然，所有这些都要接受法律解释。（这篇文章不是法律建议！）但现在，有了这些事实，让我们想想Generative AI的作用，以及为什么上面的概念会冲击Generative AI。

生成式人工智能综述

我专栏的普通读者将非常清楚地了解生成人工智能是如何训练的，但让我们快速回顾一下。
大量的数据被收集起来，模型通过分析数据中存在的模式来学习。（正如我之前所写：“一些报告表明，GPT-4的训练数据中有大约1万亿个单词。这些单词中的每一个都是一个人出于自己的创作能力而写的。就上下文而言，《权力的游戏》系列的第1本书约为292727个单词。因此，GPT–4的训练数据约为该书的3416152份。”）
当模型学习了数据中的模式时（对于LLM，它学习了所有关于语言语义、语法、词汇和习语的知识），它将被人类微调，以便在人们与它交互时表现出所需的行为。数据中的这些模式可能非常具体，以至于一些学者认为模型可以“记住”训练数据。
然后，该模型将能够回答用户的提示，反映出它所学习的模式（对于LLM，用听起来很有说服力的人类语言回答问题）。

这些模型的输入（训练数据）和输出对版权法都有重要影响，所以让我们仔细看看。

训练数据和模型输出

训练数据对于创建生成性人工智能模型至关重要。其目的是教一个模型复制人类的创造力，因此该模型需要看到大量人类创造力的作品，才能了解其外观/声音。但是，正如我们之前所了解到的，人类创作的作品属于这些人（即使它们被记在餐巾纸上）。对于我们训练哪怕是一个小的生成人工智能模型所需的大量数据来说，向每一位创作者支付他们作品的版权在财务上是不可行的。那么，我们将他人的工作输入训练数据集并创建生成的人工智能模型是否合理？让我们复习一下公平使用测试，看看我们在哪里着陆。

第二次使用的目的和特点

我们可以争辩说，使用数据来训练模型并不能真正算作创造衍生作品。例如，这与教孩子用书或音乐不同吗？相反的论点是，首先，教一个孩子并不等同于使用数百万本书来生成一个产品牟利，其次，生成性人工智能能够敏锐地复制它所训练的内容，因此它基本上是一个几乎逐字逐句复制作品的大工具。生成人工智能的结果有时是创新的，与输入完全不同吗？如果是的话，那可能是因为非常有创意的即时工程，但这是否意味着底层工具是合法的？

然而，从哲学上讲，机器学习正试图尽可能准确地再现它从训练数据中学习到的模式。它从原作中学习到的模式是否与原作的“心”相同？

2.原件的性质

这在现有的不同类型的生成式新形势人工智能中差异很大，但由于训练任何模型都需要大量的数据，似乎至少有一部分符合创造力的法律标准。在许多情况下，使用人工内容作为训练数据的全部原因是试图将创新（高度多样化）的输入输入到模型中。除非有人要仔细阅读GPT-4的全部1万亿个单词，并决定哪些单词有创意或没有创意，否则我认为这一标准不符合合理使用。

3.使用金额

这是一个类似于#2的问题。因为，几乎从定义上讲，生成的人工智能训练数据集使用了他们所能掌握的一切，而且数量需要庞大而全面；实际上并没有“最低限度的必要”内容量。

4.效果

最后，效果问题是生成式人工智能的一大症结。我想我们都知道有人会不时使用ChatGPT或类似工具，而不是在百科全书或报纸上搜索问题的答案。有强有力的证据表明，尽管这些服务机构做出了一些明显的努力来阻止这种情况，但人们使用Dall-E等服务来请求“以[此处艺术家姓名]的风格”的视觉作品。如果问题是人们是否会使用生成型人工智能，而不是支付原始创作者的费用，那么在某些领域似乎肯定会发生这种情况。我们可以看到，像微软、谷歌、Meta和OpenAI这样的公司正在从生成人工智能中获得数十亿的估值和收入，所以他们肯定不会轻易通过这一点。

复制作为计算中的一个概念

版权法并不能很好地处理一般的计算，特别是软件和数字制品。版权法主要是在早期世界制定的，在那里复制黑胶唱片或重新出版一本书是一项专业且昂贵的任务。但今天，当任何计算机上的任何东西基本上只需点击鼠标就可以在几秒钟内复制时，复制东西的整个想法与过去不同了。此外，请记住，安装任何软件都算作复制。数字拷贝在我们的文化中意味着与计算机之前的拷贝不同的东西。关于版权在数字时代应该如何运作，人们有很多疑问，因为其中很多似乎不再那么重要。你有没有从GitHub或StackOverflow复制过一些代码？我当然有！您是否仔细审查了内容许可证，以确保其可用于您的用例？你应该这样做，但你做了吗？

《纽约时报》诉OpenAI案

既然我们对这种困境的形式有了大致的了解，创作者和法律是如何处理这个问题的？我认为最有趣的此类案件（有很多）是《纽约时报》提出的案件，因为其中一部分涉及复制的含义，我认为其他案件无法做到这一点。

正如我上面提到的，复制数字文件的行为是如此普遍和正常，以至于很难想象强制复制数字文件（至少，在没有违反其他合理使用测试向全球公众分发确切文件的意图的情况下）是侵犯版权。我认为这就是我们需要关注生成人工智能问题的地方 — 不仅仅是重复，还有对文化和市场的影响。

生成式人工智能真的在复制内容吗？例如，训练数据输入，训练数据输出？《纽约时报》在其文件中显示，你可以从ChatGPT中获得《纽约时报”文章的逐字文本，并有非常具体的提示。因为《纽约时报》有付费墙，如果这是真的，它似乎明显违反了公平使用的效果测试。到目前为止，OpenAI的回应是“好吧，你对ChatGPT使用了许多复杂的提示来获得这些逐字逐句的结果”，这让我想知道，他们的论点是，如果生成型人工智能有时会生成其训练内容的逐字副本，那就不违法吗？（环球音乐集团（Universal Music Group）也提起了与音乐相关的类似案件，认为生成人工智能模型Claude可以几乎逐字逐句地复制受版权保护的歌曲的歌词。）

我们要求法院决定受版权保护的材料的确切使用量和使用方式，在这种情况下，这将是一个挑战 — 我倾向于认为，使用数据进行训练不应该是固有的问题，但重要的问题是如何使用模型以及它会产生什么影响。

我们倾向于将合理使用视为一个步骤，就像引用你文章中的一段话。我们的系统有一套法律思想，为这种情况做好了充分准备。但在生成人工智能中，这更像是两个步骤。要说版权受到侵犯，在我看来，如果内容被用于培训，它也必须以篡夺原始材料市场的方式从最终模型中检索。我不认为您可以将使用的输入内容的数量与可以逐字提取作为输出的数量区分开来。然而，ChatGPT真的是这样吗？我们将看看法院是怎么想的。

DMCA

这些问题还有另一个有趣的角度，那就是DMCA（数字千年版权法）是否与此相关。你可能熟悉这项法律，因为几十年来，它一直被用来迫使社交媒体平台删除未经版权持有人授权发布的音乐和电影文件。这项法律是基于这样一种想法，即你可以对侵犯版权的人进行“打击”，一次删除一条内容。然而，当涉及到训练数据集时，这显然是行不通的——你需要重新训练整个模型，在大多数生成性人工智能的情况下，这需要付出高昂的代价，从训练数据中删除一个或多个有问题的文件。理论上，你仍然可以使用DMCA来强制从网站上删除有问题的模型的输出，但证明是哪个模型产生了这个项目将是一个挑战。但这并没有像我所描述的那样，将输入+输出视为侵权的关键。

权力问题

如果这些行为实际上侵犯了版权，法院仍然必须决定该怎么办。从某种意义上说，很多人认为生成人工智能“太大了，不能失败”——他们不能废除让我们走到这一步的做法，因为每个人都喜欢ChatGPT，对吧？世代人工智能（我们被告知）将彻底改变[在此权利]！

虽然版权是否受到侵犯的问题仍有待决定，但我确实觉得如果受到侵犯，应该会有后果。假设请求原谅比许可更容易，我们在什么时候才能停止原谅那些绕过法律或公然违反法律的有权势的人和机构？这并不完全显而易见。如果没有一些人以这种方式行事，我们今天就不会有很多创新，但这并不一定意味着这是值得的。让这些情况过去会导致法治贬值吗？

像现在《99%看不见》的许多听众一样，我正在读罗伯特·卡罗的《权力经纪人》。听到罗伯特·摩西（Robert Moses）在20世纪之交如何处理纽约的法律问题令人着迷，因为他处理分区法的风格似乎让人想起了2010年初旧金山优步（Uber）处理快递司机相关法律的方式，以及构建生成人工智能的大公司现在处理版权的方式。他们没有遵守法律，而是采取了法律限制不适用于他们的态度，因为他们正在建造的东西是如此重要和有价值。

然而，我只是不相信这是真的。当然，每种情况在某些方面都是不同的，但一个有权势的人可以决定他认为什么是好主意，这一概念不可避免地比其他人认为的更重要，这让我感到困惑。生成型人工智能可能有用，但认为它比拥有一个文化上充满活力和创造力的社会更重要似乎是虚伪的。法院仍需决定生成性人工智能是否对艺术家和创作者产生了寒蝉效应，但这些创作者提起的法庭案件认为确实如此。

和构

美国版权局并没有忽视这些具有挑战性的问题，尽管他们可能会来晚一点，但他们最近发布了一篇博客文章，谈论他们对生成人工智能相关内容的计划。然而，它非常缺乏具体内容，只有告诉我们未来会有报告。该部门的工作重点有三个方面：

“数字复制品”：基本上是deepfakes和数字双胞胎（想想特技替身和演员在工作中必须接受扫描才能被数字模仿）

“包含人工智能生成材料的作品的版权”

“在受版权保护的作品上训练人工智能模型”

这些都是重要的话题，我希望结果会是深思熟虑的。（一旦这些报告出来，我会写下这些报告。）我希望从事这项工作的政策制定者了解情况，技术娴熟，因为官僚很容易用不明智的新规则使整个情况变得更糟。

未来的另一种可能性是，将开发道德数据集进行培训。这是HuggingFace的一些人已经以名为the Stack的代码数据集的形式完成的。我们能为其他形式的内容做这种事情吗？

结论

然而，不管政府或行业提出了什么，法院都在着手解决这个问题。如果法庭上的一个案件被生成的人工智能方败诉，会发生什么？

这可能至少意味着生成人工智能产生的部分资金将返还给创作者。我不太相信生成人工智能的整个想法会消失，尽管我们确实看到了Napster时代许多公司的终结。法院可能会让生产生成性人工智能的公司破产，和/或禁止生产生成性的人工智能模型——这并非不可能！然而，我不认为这是最有可能的结果——相反，我认为我们会看到一些惩罚和围绕这一点的法律碎片化（这种模式可以，那种模式不可以，等等），这可能会也可能不会使情况在法律上变得更清楚。

我真的很希望法院能处理生成人工智能模型何时以及如何被视为侵权的问题，而不是将输入和输出问题分开，而是将它们作为一个整体进行审查，因为我认为这是理解情况的关键。如果他们这样做了，我们也许能够为我们正在处理的新技术提出有意义的法律框架。如果不这样做，我担心我们最终会进一步陷入法律的泥潭，而法律对指导我们的数字创新毫无准备。我们需要在我们的数字世界中更有意义的版权法。但我们也需要智能地保护各种形式的人类艺术、科学和创造力，我认为人工智能生成的内容不值得用它来交换。