人工智能监管空白：建立智能知识产权法

“一刀切”的法规将削弱人工智能革命所承诺的医疗和研究利益。曾经还是充满猜测的边缘地带，如今AI已经成为一个充满希望和恐惧的“热点”，关于这场革命性的技术变革，人们对于智能系统的不确定性愈发增加。这些智能系统在某些领域已经超越了人类的能力，而对它们的监管也成了一个难题。在如何保护或控制这项技术方面做出正确的选择，是确保人们对于AI

的期望，包括在科学、医药以及整体生活中的利益，能够战胜持久的灾难性恐惧的唯一途径。

过去一年，像OpenAI的ChatGPT这样的AI聊天机器人的公开引入已经引发了过度的警告。这些警告范围广泛，从纽约州参议院多数党领袖查克·舒默发出的警告，他表示AI将“在工作场所、教室、客厅——在生活的每个角落引发巨大变革”，到俄罗斯总统普京所断言的，“在这个领域成为领导者的人将成为世界的统治者。”此类恐惧还包括了行业领袖对无限制人工智能的严重后果的警告。

已经开始了立法努力来解决这些问题。6月14日，欧洲议会在接受欧洲委员会69页提案的771项修正案后，通过了一项新的AI法案。该法案要求像ChatGPT这样的“生成”型AI系统采取一系列安全措施和披露，例如在使用“超越个人意识的潜意识技术”或“利用特定人群的年龄、生理或精神残障等脆弱性”时，以及避免“对健康、安全、基本权利、环境和民主、法治的可预见风险”。

全球一个紧迫的问题是，用于训练AI系统的数据是否需要得到作者或表演者的同意，他们还要求对使用他们作品的署名和补偿。

一些政府已经对版权法进行了特殊的文本和数据挖掘例外规定，以便更容易地收集和使用信息来训练AI。这些例外规定允许一些系统在在线文本、图像和其他由他人拥有的作品上进行训练。最近，这些例外规定受到了反对，特别是来自版权所有者和持有更一般性异议的批评者，他们希望减缓或降低这些服务。这些争议加剧了近几个月关于AI风险的大量报道，这些风险与技术的潜在威胁有关，包括偏见、社会操纵、收入和就业损失、虚假信息、欺诈等风险，以及有关“人类灭亡”的灾难性预测。

最近美国的版权听证会呼应了作者、艺术家和表演者的共同呼声——AI训练数据应该受到“三个C”的约束，即同意（consent）、署名（credit）和补偿（compensation）。每个“C”都有其自身的实际挑战，与一些国家所采纳的最有利的文本和数据挖掘例外相悖。

与培训数据相关的知识产权的国家方法是多样且不断发展的。美国正在处理多起诉讼，以确定公平使用例外规定在版权方面的适用程度。2019年，欧洲联盟通过了有关数字单一市场版权的指令，其中包括了文本和数据挖掘的例外规定，包括研究和文化遗产组织的强制例外规定，同时赋予版权所有者阻止其作品在商业服务中使用的权利。2022年，英国提出了一个广泛的例外规定，适用于商业用途，但在今年早些时候被暂停。2021年，新加坡在其版权法中为计算数据分析创造了一个例外，适用于文本和数据挖掘、数据分析和机器学习。新加坡的例外规定要求合法访问数据，但不能被合同否决。中国已发表声明，暗示将从培训数据中排除“侵犯知识产权的内容”。在斯坦福大学DigiChina项目的一篇4月文章中，乔治敦大学安全与新兴技术中心的海伦·托纳描述了这一做法“有些模糊不清，因为所涉及的许多数据的版权状态通常不明确，这些数据通常是从广泛的在线来源大规模获取的”。许多国家没有针对文本和数据挖掘的具体例外规定，但尚未确立立场。印度官员表示他们目前不准备对AI进行监管，但与许多其他国家一样，印度热衷于支持国内产业。

随着法律法规的出台，应当小心避免一刀切的方法，即适用于录音音乐或艺术的规则也适用于用于医学研究和开发的科学论文和数据。

以前的数据库立法努力说明了需要谨慎的必要性。在20世纪90年代，有关自动赋予从数据库中提取的信息（包括统计数据和其他非版权元素）权利的提案流传开来。其中一个例子是世界知识产权组织（WIPO）在1996年提出的一项条约。在美国，一群多元化的学者、图书馆、业余的家谱学家和公益团体反对了该条约提案。但更重要的可能是美国公司，如彭博社、Dun & Bradstreet和STATS的反对，它们开始认为数据库条约既是不必要的，又是繁琐的，因为它将增加他们需要获取并提供给客户的数据的许可负担，并在某些情况下可能产生不受欢迎的垄断。 WIPO数据库条约在1996年的外交会议上失败，随后在美国采取立法的努力也同样失败，但欧盟继续实施了有关数据库的法律保护指令。在过去的几十年里，美国在数据库方面的投资呈现出蓬勃发展的趋势，而欧盟则通过法院的裁决试图削弱其指令。在2005年的内部评估中，该指令被认为“对数据库的生产没有实际影响”。

纯粹的实际问题还指向另一个警告。大语言模型中的数据规模可能很难理解。首次发布的Stable Diffusion可以从文本生成图像，但需要在23亿张图像上进行训练。GPT-2是ChatGPT模型的早期版本，训练数据量为40 GB。随后的GPT-3版本则是在45 TB的数据上进行训练，是前者的1000倍以上。OpenAI面临使用数据的诉讼，未公开披露用于训练最新版本GPT-4的具体数据集大小。即使对于简单的项目，清除版权作品的权利也可能很困难，对于非常大的项目或平台，由于实际的元数据定位和作者或表演者与出版商之间的合同评估要求，甚至几乎不可能知道谁拥有权利。在科学领域，要求获得使用受版权保护的作品的同意可能会让科学文章的出版商在哪些公司可以使用数据方面拥有相当大的影响力，尽管大多数作者并未得到报酬。

不同所有者之间的差异是很重要的。让拥有流行音乐录音版权的持有人选择退出数据库是一回事，但如果一篇重要的科学论文因许可争议而被排除在外则是另一回事。当AI在医院和基因疗法中使用时，您是否真的想要从训练数据库中排除相关信息？

除了同意（consent），其他两个“C”，即署名（credit）和补偿（compensation），也存在各自的挑战，正如目前在涉及版权或专利侵权的高昂诉讼成本中所体现的一样。但人们也可以想象，在艺术或生物医学研究中使用的数据集和用途中，一个良好管理的AI程序可能有助于实施利益共享，比如为种子成功的生物医学产品提供开源股息的提议。

在某些情况下，用于训练AI的数据可以分散，具备多项保障措施。其中包括实施隐私保护、避免不受欢迎的垄断控制以及使用现在正在为一些科学数据构建的“数据空间”方法。

所有这些都提出了对分配给训练数据的任何类型的知识产权权利的明显挑战：这些权利实质上是国家性的，而开发AI服务的竞赛是全球性的。只要有电力和接入互联网，AI程序就可以在任何地方运行。您不需要庞大的员工团队或专业实验室。在那些对获取和使用数据以训练AI施加昂贵或不切实际义务的国家中运营的公司将与在更自由环境中运营的实体竞争。