生成式人工智能因其改变创造力的潜力而备受赞誉,尤其是通过降低内容创作的障碍。尽管生成式人工智能工具的创造性潜力经常被强调,但这些工具的流行引发了知识产权和版权保护方面的问题。
ChatGPT等生成式人工智能工具由基础人工智能模型或基于大量数据训练的人工智能模型提供动力。生成式人工智能是根据从互联网上抓取的文本或图像中提取的数十亿条数据进行训练的。
生成式人工智能在如此庞大的数据存储库上使用非常强大的机器学习方法,如深度学习和迁移学习,来理解这些数据片段之间的关系——例如,哪些单词倾向于跟随其他单词。这使得生成式人工智能能够执行广泛的任务,模仿认知和推理。
一个问题是,人工智能工具的输出可能与受版权保护的材料非常相似。撇开生成模型的训练方式不谈,生成式人工智能的广泛使用带来的挑战是,当生成式人工智能输出侵犯版权保护时,个人和公司如何承担责任。
当提示导致侵犯版权时
研究人员和记者提出了一种可能性,即通过选择性提示策略,人们最终可能会创作违反版权法的文本、图像或视频。通常,生成式人工智能工具会输出图像、文本或视频,但不会对潜在的侵权行为发出任何警告。这就提出了一个问题,即如何确保生成式人工智能工具的用户不会在不知不觉中侵犯版权保护。
生成式人工智能公司提出的法律论点是,在受版权保护的作品上训练的人工智能并不侵犯版权,因为这些模型没有复制训练数据;相反,它们是为了学习文字元素和图像(如单词和像素)之间的关联。包括图像生成器Stable Diffusion的制造商Stability AI在内的人工智能公司认为,响应特定文本提示提供的输出图像不太可能与训练数据中的任何特定图像完全匹配。
生成式人工智能工具的构建者认为,提示不会复制训练数据,这应该保护它们免受侵犯版权的指控。然而,一些审计研究表明,生成式人工智能的最终用户可以通过制作与受版权保护的内容非常相似的作品来发出提示,导致侵犯版权。
确立侵权行为需要检测风格相似作品的表达元素与该艺术家特定作品中的原始表达之间的密切相似性。研究人员已经表明,训练数据提取攻击(涉及选择性提示策略)和可提取记忆(诱使生成的人工智能系统揭示训练数据)等方法可以恢复从个人照片到商标公司徽标等个人训练示例。
计算机科学家Gary Marcus和艺术家Reid Southern进行的审计研究提供了几个例子,在这些例子中,视觉生成式人工智能模型产生侵犯版权保护的图像的程度几乎没有歧义。《纽约时报》提供了一个类似的图像比较,显示了生成性人工智能工具如何违反版权保护。
如何建造护栏
法律学者将在人工智能工具中开发防止侵犯版权的护栏的挑战称为“史努比问题”。受版权保护的作品越是保护肖像,例如卡通人物史努比,与复制特定图像相比,它就越有可能是一个生成性的人工智能工具复制它。
计算机视觉领域的研究人员长期以来一直在努力解决如何检测版权侵权的问题,例如假冒的徽标或受专利保护的图像。研究人员还研究了标识检测如何帮助识别假冒产品。这些方法有助于检测侵犯版权的行为。确定内容出处和真实性的方法也会有所帮助。
在模型训练方面,人工智能研究人员提出了使生成式人工智能模型摆脱版权数据的方法。一些人工智能公司,如Anthropic,已宣布承诺不使用客户产生的数据来训练高级模型,如Antheropic的大型语言模型Claude。人工智能安全的方法,如红队——试图迫使人工智能工具行为不端——或确保模型训练过程减少生成人工智能的输出与受版权保护的材料之间的相似性,也可能有所帮助。
监管的作用
人类创作者知道要拒绝制作侵犯版权内容的请求。人工智能公司能否为生成式人工智能构建类似的护栏?
目前还没有既定的方法将这种护栏构建到生成式人工智能中,也没有任何公共工具或数据库可供用户查阅以确定版权侵权。即使有这样的工具,它们也可能给用户和内容提供商带来过重的负担。
鉴于不能指望天真的用户学习和遵循最佳实践来避免侵犯受版权保护的材料,政策制定者和监管机构有责任。可能需要结合法律和监管指南来确保版权安全的最佳实践。
例如,构建生成式人工智能模型的公司可以使用过滤或限制模型输出来限制版权侵权。同样,监管干预可能是必要的,以确保生成式人工智能模型的构建者以降低其产品输出侵犯创作者版权的风险的方式构建数据集和训练模型。