AI时代的隐私:我们如何保护个人信息?
AI时代的隐私:我们如何保护个人信息?

AI时代的隐私:我们如何保护个人信息?

人工智能的繁荣,包括大型语言模型及其相关聊天机器人的出现,对隐私提出了新的挑战。我们的个人信息是模型训练数据的一部分吗?我们的提示是否与执法部门共享?聊天机器人会连接我们在线生活中的不同线程并将其输出给任何人吗?

为了更好地理解这些威胁并努力寻找潜在的解决方案,斯坦福大学以人为中心的人工智能研究所的隐私和数据政策研究员Jennifer King和斯坦福人工智能的政策研究经理Caroline Meinhardt发表了一份白皮书,题为《重新思考人工智能时代的隐私:以数据为中心的世界的政策挑衅》。King在这里描述了他们的主要发现。

当我们的数据被人工智能系统买卖和使用时,我们面临什么样的风险?

首先,人工智能系统带来了许多与我们在过去几十年的互联网商业化和无限制的数据收集中所面临相同的隐私风险。不同之处在于规模:人工智能系统是如此的数据匮乏和内部稀缺,以至于我们对收集关于我们的信息、信息的用途以及我们如何更正或删除这些个人信息的控制更少。如今,使用在线产品或服务的人基本上不可能逃脱生活大部分方面的系统数字监控,而人工智能可能会让情况变得更糟。

其次,还有其他人将我们的数据和人工智能工具用于反社会目的的风险。例如,用从互联网上收集的数据训练的生成式人工智能工具可能会记住人们的个人信息,以及他们家人和朋友的关系数据。这些数据有助于实现鱼叉式网络钓鱼,即以身份盗窃或欺诈为目的的蓄意攻击。

第三,我们看到我们出于一个目的分享或发布的简历或照片等数据被重新用于训练人工智能系统,通常在我们不知情或不同意的情况下,有时还会直接影响公民权利。

预测系统正在被用来帮助筛选候选人,并帮助雇主决定面试谁来获得空缺职位。然而,也有一些例子表明,用于帮助选择候选人的人工智能存在偏见。例如,亚马逊建立了自己的人工智能招聘筛选工具,却发现它对女性员工有偏见。

另一个例子涉及使用面部识别来识别和逮捕犯罪者。人们很容易认为,“有一个像面部识别这样的工具很好,因为它会抓住坏人。”但相反,由于用于训练现有面部识别算法的数据中固有的偏见,我们看到了许多黑人男子被虚假逮捕的情况。算法只是错误地识别了它们。

我们是否已经对公司获取我们所有数据的想法变得如此麻木,以至于现在做任何事情都为时已晚?

我是个乐观主义者。当然,我们已经收集了很多关于我们所有人的数据,但这并不意味着我们仍然不能创建一个更强大的监管系统,要求用户选择收集他们的数据,或者在数据被滥用时迫使公司删除数据。

目前,几乎在你上网的任何地方,你在不同网站上的移动都会被跟踪。如果你正在使用移动应用程序,并且你的手机上启用了GPS,那么你的位置数据就会被收集。这种默认是大约20年前该行业说服联邦贸易委员会的结果,即如果我们从选择退出数据收集转向选择加入数据收集,我们就永远不会有商业互联网。在这一点上,我认为我们已经确立了互联网的效用。我不认为公司需要这个借口来收集人们的数据。

在我看来,当我在网上浏览时,除非或直到我做出一些肯定的选择,比如注册服务或创建帐户,否则不应该收集我的数据。即便如此,我的数据也不应该被视为公开的,除非我同意分享。

十年前,大多数人从网上购物的角度考虑数据隐私。他们想,“我不知道我是否在乎这些公司是否知道我买什么和我在寻找什么,因为有时这很有帮助。”但现在我们看到公司转向这种无处不在的数据收集,它可以训练人工智能系统,这可以对整个社会产生重大影响,尤其是我们的公民权利。我认为现在把事情倒退还为时不晚。

作为数据隐私保护的一般方法,为什么仅仅通过数据最小化和目的限制法规还不够,这些法规规定公司只能为有限的目的收集所需的数据?

这些类型的规则是关键和必要的。它们在欧洲隐私法(GDPR)和加利福尼亚州同等法律(CPPA)中发挥着关键作用,是联邦拟议隐私法(ADPPA)的重要组成部分。但我对监管机构最终实施这些规则的方式感到担忧。

例如,监管机构如何评估一家公司为其想要使用的目的收集了太多信息?在某些情况下,很明显,一家公司在收集不需要的数据时做得太过火了。但当公司(比如亚马逊或谷歌)能够现实地说他们做了很多不同的事情,这意味着他们可以证明收集大量数据是合理的时,这是一个更困难的问题。这些规则并不是一个无法克服的问题,但这是一个真正的问题。

白皮书确定了人工智能带来的数据隐私问题的几种可能解决方案。首先,你提出了从选择退出到选择加入数据共享的转变,使用软件可以使数据共享更加无缝。这是怎么回事?

我认为,默认情况应该是,除非我们明确要求收集数据,否则我们的数据不会被收集。在这个方向上出现了一些运动和技术解决方案。

一个是苹果的应用程序跟踪透明度(Apple ATT),苹果于2021年推出该功能,以解决人们对第三方应用程序收集了多少用户数据的担忧。现在,当iPhone用户下载一个新的应用程序时,苹果的iOS系统会询问他们是否想允许该应用程序在其他应用程序和网站上跟踪他们。市场营销行业的报告估计,80%到90%的选择者表示不同意。

另一种选择是,网络浏览器内置选择退出信号,如全球隐私控制,可防止第三方放置cookie或在无需勾选复选框的情况下出售个人数据。目前,《加利福尼亚州隐私保护法》(CPPA)规定浏览器可以包括这一功能,但这并不是强制性的。虽然一些浏览器(例如Firefox和Brave)有内置的输出信号,但大型浏览器公司(如微软Edge、苹果Safari和谷歌Chrome)没有。然而,有趣的是,加利福尼亚州的一位立法者最近提议对CPPA进行修改,要求所有浏览器制造商尊重第三方选择退出信号。这正是我们所需要的,这样数据就不会被每个可能的参与者和你去的每个地方收集。

建议对数据隐私采取供应链方式。这意味着什么?

当我谈论数据供应链时,我谈论的是人工智能系统在数据输入端和数据输出端提出问题的方式。在输入端,我指的是训练数据,我们担心个人的个人信息是否被从互联网上窃取并包含在系统的训练数据中。反过来,我们的个人信息在训练集中的存在可能会对输出端产生影响。例如,一个生成的人工智能系统可能已经记住了我的个人身份信息,并将其作为输出提供。或者,一个生成的人工智能系统可以揭示我的一些信息,这些信息是基于多个数据点的推断,这些数据点在其他方面是未知的或不相关的,与训练数据集中的任何个人身份信息都无关。

目前,我们依赖人工智能公司从他们的训练数据中删除个人信息,或者设置护栏,防止个人信息在输出端泄露。这不是一个真正可以接受的情况,因为我们依赖于他们选择做正确的事情。

监管人工智能需要特别关注数据片段的整个供应链——不仅是为了保护我们的隐私,也是为了避免偏见和改进人工智能模型。不幸的是,我们在美国关于监管人工智能的一些讨论根本没有涉及数据。我们一直专注于围绕公司算法系统目的的透明度要求。即使是已经将GDPR作为隐私基线的欧洲《人工智能法案》,也没有广泛审视人工智能的数据生态系统。它只是在高风险人工智能系统的背景下提到的。因此,如果我们要感觉到我们的个人信息受到保护,不被包括在人工智能系统中,包括基础模型等非常大的系统中,这是一个有很多工作要做的领域。

在报告中指出,对个人隐私权的关注过于有限,我们需要考虑集体解决方案。什么意思?

如果我们想在生成和收集大量数据的背景下让人们对自己的数据有更多的控制权,我很清楚,仅仅加倍保护个人权利是不够的。

在加利福尼亚州,我们有数据隐私法,我们大多数人甚至不知道自己拥有什么权利,更不用说有时间弄清楚如何行使这些权利了。如果我们真的想行使这些权利,我们就必须向与我们互动过的每一家公司提出个人请求,要求他们不要出售我们的个人信息——鉴于这些“不出售”的选择并非永久性的,我们必须每两年提出一次请求。

这一切都指向了一个集体解决方案的必要性,这样公众就有足够的影响力来大规模谈判他们的数据权利。对我来说,数据中介的概念最有意义。它包括将数据权利的谈判权委托给一个为你工作的集体,这给了消费者更多的影响力。

我们已经看到数据中介在一些企业对企业的环境中形成,它们可以采取各种形式,如数据管家、信任、合作、协作或共享。在消费者领域实现这些功能将更具挑战性,但我不认为这是不可能的。