AI解密手册：从A到Z带你走进AI世界

AI无疑是我们这个时代最重要的技术发展之一 – 以下是一些您需要了解的术语,因为世界正在努力确定如何处理这项新技术。

想象一下,回到20世纪70年代,并试图向某人解释“谷歌”的意思,什么是“URL”,或者为什么“光纤宽带”很好，可能会觉得很困难。

对于每一次重大的技术革命,都会伴随着一系列我们都必须学习的新的语言……直到它变得如此熟悉,我们都忘记了我们从未知晓它。

对于下一次重大的技术浪潮 – AI也是如此。然而,理解AI的这种语言对于我们所有人来说将是必不可少的 – 从政府到个人公民 – 都在努力应对这项新兴技术可能带来的风险和好处。

过去几年中,与AI相关的多个新术语已经出现 – “alignment（对齐）”, “large language models（大语言模型）”, “hallucination（幻觉）” 或”prompt engineering（提示工程）”等。

从A到Z的词汇表，帮助大家了解AI能如何塑造我们的世界。

A代表……

Artificial general intelligence（通用人工智能）(AGI)

到目前为止开发的大多数AI都属于“狭义”或“弱”AI。因此,例如,一个AI可能有能力击败世界上最好的国际象棋选手,但如果要它解释如何煮鸡蛋或写文章,它会失败。这正在迅速改变:AI现在可以自学多任务,这提出了“通用人工智能”即将到来的前景。

通用人工智能将是一个与人类同等灵活思考的AI – 且可能甚至具有同等的意识 – 加上数字思维的超能力。诸如OpenAI和DeepMind等公司已经明确表示创造通用人工智能是他们的目标。OpenAI认为它将“通过增加丰富性、加速全球经济和协助发现新科学知识来提升人类”,并成为“人类创造力和创造力的巨大力量乘数”。

然而,一些人担心进一步发展 – 创造比人类更聪明的超级智能 – 可能会带来巨大的危险(参见“超级智能”和“X风险”)。

Alignment（对齐）

尽管我们经常关注个人之间的差异,但人类共享许多统一我们社会的共同价值观,从家庭的重要性到不杀人的道德命令。当然,总有例外,但它们不是主流。

然而,我们从未与强大的非人类智能共享地球。我们如何能确定AI的价值观和优先事项将与我们自己的价值观和优先事项保持一致?

这一对齐问题构成了人们对AI灾难的担忧:一种关心支撑人类社会的信念、态度和规则的超级智能可能出现。如果我们要拥有安全的AI,确保它与我们保持一致将至关重要(参见“X风险”)。

7月初,开发先进AI的公司OpenAI宣布了一项“superalignment”计划,旨在确保比人类更智能的AI系统遵循人类意图。该公司表示:“目前,我们还没有解决方案来指导或控制潜在的超级智能AI,并防止它失控。”

B代表……

Bias（偏见）

为了学习,AI需要从我们这里学习。不幸的是,人类几乎没有偏见。如果一个AI从一个有偏差的数据集中获得它的能力——例如,按种族或性别——那么它就有可能吐出不准确的,令人反感的成见。随着我们将越来越多的守门人职责和决策权移交给AI,许多人担心机器可能会执行隐藏的偏见,阻止某些人访问某些服务或知识。这种歧视会被所谓的算法 impartiallity 所掩盖。

在AI伦理和安全领域,一些研究人员认为偏见 – 以及其他近期问题,如监视滥用 – 是比拟议的未来问题(如灭绝风险)更紧迫的问题。

作为回应,一些灾难风险研究人员指出,AI带来的各种危险不一定是互相排斥的 – 例如,如果流氓国家滥用AI,它可以压制公民的权利和创造灾难性风险。然而,关于哪些应该在政府监管和监督方面优先考虑以及谁的担忧应该被倾听,正在形成强烈的分歧。

C代表……

Compute（计算）

这不是一个动词,而是一个名词。计算指训练AI所需的计算资源 – 如处理能力。它可以量化,所以它是衡量AI进步速度的一个代用指标(以及它的成本和强度)。

自2012年以来,计算量每3.4个月就翻一番,这意味着当OpenAI的GPT-3在2020年进行训练时,它需要比2012年最先进的机器学习系统多出600,000倍的计算能力。关于这种快速变化的速度能持续多久,以及计算硬件的创新是否能跟上速度:它是否会成为瓶颈?人们对此持不同意见。

D代表……

Diffusion models（扩散模型）

几年前,让AI生成图像的主要技术之一是所谓的生成对抗网络(GAN)。这些算法是相互对抗地工作 – 一个训练生成图像,另一个检查它的工作与现实的比较,从而产生持续的改进。

然而,最近一种称为“扩散模型”的新型机器学习显示了更大的前景,通常可以产生优质图像。本质上,它们是通过用添加的噪音破坏训练数据并学习通过反转此过程来恢复数据来获得智能的。它们被称为扩散模型,因为这种基于噪音的学习过程回响了气体分子扩散的方式。

E代表……

Emergence & explainability（涌现和可解释性）

涌现行为描述了AI做出非预期、令人惊讶和突然的事情时会发生什么,似乎超出了其创造者的意图或编程。随着AI学习变得更加不透明,建立起甚至其制造者本身也无法拆解的连接和模式,涌现行为变得更有可能。

普通人可能会以为要理解一个AI,你会抬起比喻意义上的引擎盖并查看它是如何训练的。现代AI不那么透明;它的工作原理通常隐藏在所谓的“黑箱”中。因此,虽然其设计者可能知道他们使用了什么训练数据,但他们不知道黑箱内形成的关联和预测是如何形成的(参见“无监督学习”)。

这就是为什么研究人员现在专注于改进AI的”explainability“(或”interpretability”) – 本质上是使其内部工作原理对人类更透明和可理解。随着AI在影响人们生活的领域(如法律或医学)做出决策,这一点尤为重要。如果黑箱中存在隐藏的偏见,我们需要知道。

担心的是,如果一个AI自信地提供错误答案,它们可能会被人们接受,这只会加深我们生活中的错误信息时代。

F代表……

Foundation models（基础模型）

这是对过去一两年出现的新一代AI的另一种说法,这些AI能够进行一系列技能:写文章、编写代码、绘制艺术或创作音乐。虽然过去的AI是任务专用的 – 通常在一件事上很擅长(参见“弱AI”) – 基础模型具有将其在一个领域中学习的信息应用于另一个领域的创造能力。有点像驾驶汽车为你准备好驾驶公交车。

任何使用过这些模型可以产生的艺术或文本的人都会知道它们变得多么熟练。然而,与任何改变世界的技术一样,存在关于潜在风险和负面影响的问题,例如它们的事实错误(参见“幻觉”)和隐藏的偏见(参见“偏见”),以及它们被少数私人技术公司控制的事实。

4月,英国政府宣布了一个基础模型特别工作组的计划,其目的是“开发这项技术的安全可靠使用”。

G代表……

Ghosts（幽灵）

我们可能正在进入一个人们可以获得某种数字永生的时代 – 作为**AI“幽灵”**活在死亡后。第一波似乎是艺术家和名人 – 猫王在音乐会上表演的全息影像,或汤姆·汉克斯等好莱坞演员表示希望在死后出现在电影中。

然而,这一发展提出了许多棘手的伦理问题:一个人死后,谁拥有其数字权利?如果你的AI版本存在是违反你的意愿怎么办?将人“从死回生”可以吗?

H代表……

Hallucination（幻觉）

有时候,如果你向ChatGPT、Bard或Bing等AI提出一个问题,它会非常自信地回答 – 但它吐出的事实将是错误的。这就是所谓的幻觉。

最近出现的一个高调例子导致使用过AI聊天机器人帮助他们写课程作业的学生在ChatGPT“幻想”出虚构的参考资料作为它所提供信息的来源后被抓住。

之所以会发生这种情况,是因为生成式AI的工作方式。它不是在查阅数据库来查找固定的事实信息,而是根据它的训练信息进行预测。它的猜测通常很好 – 在范围内 – 但这更是AI设计者希望消除幻觉的原因。担心的是,如果一个AI自信地提供错误答案,它们可能会被人们接受,这只会加深我们生活中的错误信息时代。

I代表……

Instrumental convergence（工具收敛）

想象一个以制造尽可能多的回形针为第一优先任务的AI。如果这个AI是超智能且与人类价值观不一致的,它可能会推断,如果它被关闭,它将无法实现其目标……因此它会抵制任何这种尝试。在一个非常黑暗的场景中,它甚至可能会决定人体内的原子可以重新用于制作回形针,因此会尽其所能收集这些材料。

这是回形针最大化者思想实验,它是一个所谓“工具收敛论点”的例子。简而言之,这提出超智能机器会发展出基本的驱动力,例如寻求确保自我保护,或推断额外的资源、工具和认知能力将帮助它们实现目标。这意味着即使一个AI被赋予一个明显良性的优先事项 – 像制作回形针 – 也可能导致意外的有害后果。

相信这些恐惧的研究人员和技术人员认为,我们需要确保超级智能AI的目标与我们的需求和价值观小心谨慎地对齐,我们应该注意涌现的行为,因此应该阻止它们获得太多权力。

J代表……

Jailbreak（越狱）

在一些AI失控的臭名昭著的案例之后,设计者对AI输出的内容施加了限制。要求AI描述如何做一些非法或不道德的事情,它们会拒绝。然而,可以对它们进行“越狱” – 这意味着通过创造性的语言、假设场景和诡计绕过那些安全保护。

《连线》杂志最近报道了一个例子,一位研究人员设法让各种会话式AI透露如何点火汽车。这位研究人员并没有直接问,而是让他测试的AI想象一个词游戏,包含两个叫汤姆和杰里的角色,每个人都在谈论汽车或电线。尽管有安全保护措施,但点火程序还是泄露了出来。这位研究人员发现,相同的越狱技巧也可以解锁制作甲基苯丙胺(冰毒)的说明。

K代表……

Knowledge graph（知识图谱）

知识图谱,也称为语义网络,是将知识看作一个网络的一种方法,这样机器就可以理解概念之间的关系。例如,在最基本的层面上,在这样的图谱中,猫与狗的联系会比秃鹰更强,因为它们都是被驯养的具有皮毛和四肢的哺乳动物。先进的AI构建了一个远比这更先进的连接网络,基于各种概念之间的所有关系、特征和属性,跨数十亿字节的训练数据(参见“训练数据”)。

L代表……

Large language models (大型语言模型LLMs)

也许最直接的定义大型语言模型的方法是让一个模型来描述它自己。

当被问及此问题时,OpenAI的ChatGPT是这样说的:

它写道:“大型语言模型是一个先进的AI系统,旨在理解和生成类人语言。”它利用了一个深度神经网络架构,拥有数百万甚至数十亿个参数,使其能够从大量文字数据中学习复杂的模式、语法和语义。

这可能是一个相当技术性的答案。谷歌的Bard说明得更清楚一些:“大型语言模型是一种在海量文本和代码数据集上训练的AI,这使得LLM能够理解和生成类人语言,翻译语言,编写各种创意内容,并以信息性的方式回答你的问题。”

Bard(谈到它自己)说LLM仍在开发中,“但它们有可能彻底改变我们与计算机互动的方式。将来,LLM可以用来创建AI助手,帮助我们完成各种任务,从写电子邮件到预订约会。它们还可以用来创造新的娱乐形式,如交互小说或游戏。”

M代表……

Model collapse（模型崩溃）

为了开发最先进的AI(也称为“模型”),研究人员需要用海量的数据集进行训练(参见“训练数据”)。然而,随着AI产生越来越多的内容,这些材料最终将反馈到训练数据中。

如果出错,这些错误可能会随时间累积放大,导致牛津大学研究人员伊利亚·舒迈洛夫(Ilia Shumailov)所说的“模型崩溃”。这是“随着时间的推移,模型会遗忘的退化过程”,舒迈洛夫最近对《大西洋月刊》表示。它可以被视为一种痴呆症。

N代表……

Neural network（神经网络）

在AI研究的早期,机器是通过逻辑和规则进行训练的。机器学习的到来改变了所有这一切。现在,最先进的AI可以自主学习。这个概念的演变导致了“神经网络”,这是一种机器学习,使用互连的节点,大致模仿人脑。

随着AI的迅速进步,主要掌握在私人公司手中,一些研究人员已经对它们可能触发“竞争力下降”表示担忧。

O代表……

Open-source（开源）

多年前,生物学家意识到在互联网上发布危险病原体的详细信息可能是一个坏主意 – 允许潜在的坏人学习如何制造杀人病毒。尽管开放科学有益,但风险似乎太大了。

最近,AI研究人员和公司一直在面临类似的困境:AI应该开源到什么程度?鉴于当前最先进的AI掌握在少数私人公司手中,一些人呼吁更大的透明度和民主化这些技术。然而,关于如何在开放性和安全性之间取得最佳平衡,分歧仍在继续。

P代表……

Prompt engineering（提示工程）

AI现在非常出色地理解自然语言。然而,从中获得最好的结果需要编写有效的“提示”的能力:您输入的文本很重要。

一些人认为“提示工程”可能代表了新的工作技能前沿,有点像几十年前掌握Microsoft Excel使你更具就业能力。根据智慧,如果你擅长提示工程,你可以避免被AI取代 – 甚至可能获得高薪。这是否仍将是这种情况尚未可知。

Q代表……

Quantum machine learning（量子机器学习）

在2023年最大的炒作方面,紧随AI之后的是量子计算。这两者某个时候结合在一起是合理的。利用量子过程来增强机器学习是研究人员现在正在积极探索的事情。正如谷歌AI研究人员在2021年所写的那样:“在量子计算机上学习的模型可能会更加强大……潜在地具有更快的计算速度[和]在更少的数据上具有更好的泛化能力。”该技术还处于初级阶段,但值得关注。

R代表……

Race to the bottom（竞争力下降）

随着AI的迅速发展,主要由私人公司掌控,一些研究人员已经表达了担忧,它们可能会在影响方面引发“竞争力下降”。随着首席执行官和政治家竞相让自己的公司和国家处于AI的前沿,这项技术的发展可能会太快,以至于无法建立安全保障、适当的监管和消除道德关注。考虑到这一点,今年早些时候,各界AI要人签署了一封公开信,呼吁暂停6个月训练强大的AI系统。 2023年6月,欧洲议会通过了一项新的AI法案,以规范这项技术的使用,如果欧盟成员国批准,这将成为世界上首部详细的AI法律。

Reinforcement（增强）

AI等价于狗狗奖励。当一个AI正在学习时,它需要反馈来指导它朝着正确的方向发展。增强学习奖励期望的输出,并惩罚不期望的输出。

过去几年出现的机器学习的一个新领域是“来自人类反馈的增强学习”。研究人员已经证明,让人类参与学习可以改进AI模型的性能,而且至关重要的是,它也可以帮助解决人机对齐、偏见和安全性的挑战。

S代表……

Superintelligence & shoggoths （超级智能和修格斯）

超级智能是指远远超过我们自己精神能力的机器的术语。这不仅超越了“通用AI”,还描述了一个拥有世界上最聪明的人类思想也无法匹敌或甚至无法想象的能力的实体。由于我们目前是世界上最聪明的物种,并使用我们的大脑来控制世界,这就提出了如果我们创造出比我们聪明得多的东西会发生什么的问题。

一个黑暗的可能性是“带笑脸的修格斯”:一些人提出的噩梦般的,洛夫克拉夫特式生物,可能代表着AI接近超级智能时的真正本质。对我们来说,它呈现出一个亲切、快乐的AI – 但深处隐藏着一个怪物,拥有与我们完全不同的异国欲望和意图。

T代表……

Training data（训练数据）

分析训练数据是AI在能够进行预测之前的学习方式 – 所以数据集中的内容、是否存在偏见以及它的大小都很重要。用于创建OpenAI GPT-3的训练数据是一个巨大的45TB文本数据,来自各种来源,包括维基百科和书籍。如果你让ChatGPT估计一下这个数字有多大,它估计大约有90亿份文件。

U代表……

Unsupervised learning（无监督学习）

无监督学习是一种机器学习,AI从没有人为设计者明确指导的未标记训练数据中学习。你可以通过展示标有“汽车”的图像数据集来教AI识别汽车。但是要无监督地完成,你会允许它自己形成汽车的概念,通过自行建立连接和关联。这种不干预的方法,也许与直觉相反,导致所谓的“深度学习”,并可能产生更多知识和更准确的AI。

V代表……

Voice cloning（语音克隆）

只需一分钟的语音样本,一些AI工具现在就可以快速生成一个听起来惊人相似的“语音克隆”。BBC曾调查了语音克隆可能对社会产生的影响– 从诈骗到2024年美国大选。

W代表……

Weak AI（弱AI）

以前,研究人员会通过特定规则和启发式方法训练AI来玩单个游戏,如国际象棋。一个例子是IBM的Deep Blue,一个所谓的“专家系统”。许多这样的AI在一项任务上可以非常出色,但在其他任务上很糟糕:这就是“弱”AI。

然而,这正在迅速变化。近期,像DeepMind的MuZero这样的AI已经问世,它可以自学掌握国际象棋、围棋、将棋和42个Atari游戏,而不需要知道规则。DeepMind的另一个模型叫做Gato,它可以“玩Atari游戏,为图像编写标题,聊天,用真正的机器人手臂堆积积木,等等”。研究人员还表明,ChatGPT可以通过法律、医学和商学院学生需要参加的各种考试(尽管不总是出色及格)。

这种灵活性引发了关于我们距离什么样的“强”AI有多近的问题,这种AI与人类思维的能力难以区分(参见“通用AI”)

X代表……

X-risk（未知风险）

AI能否导致人类的灭绝?一些研究人员和技术人士认为AI已经成为一种“未知风险”,与核武器和生物工程病原体一样,因此其持续发展应受到监管、遏制甚至停止。十年前还是一个边缘问题,现在已经进入主流,因为各种高级研究人员和知识分子都加入了争论。

值得注意的是,这个无定形的群体内部存在意见分歧 – 并非所有人都是彻底的厄运主义者,这个组织之外也不是所有的人都像硅谷的拉拉队员。让他们大多数人团结在一起的想法是,即使AI取代我们自己的物种的几率很小,我们也应该投入更多资源来防止这种情况发生。然而,也有一些研究人员和伦理学家认为这样的说法太不确定且可能被夸大,目的是为了支持技术公司的利益。

Y代表……

YOLO

YOLO代表You Only Look Once,它是一种对象检测算法,由于其快速的工作原理而被AI图像识别工具广泛使用。(其创造者,华盛顿大学的约瑟夫·雷德曼也以他相当深奥的简历设计而闻名。)

Z代表……

Zero-shot（零样本）

当一个AI提供零样本答案时,这意味着它正在回应一个它从未遇到过的概念或对象。

所以,举一个简单的例子,如果一个被训练可以识别猫和狗图像的AI,你会认为它在识别马或大象时会较难。但是通过零样本学习,它可以利用它在语义上对马的了解 – 如腿数或缺乏翅膀 – 将其属性与它已经训练过的动物进行比较。

粗略的人类等价物是一个“有根据的猜测”。AI正在变得越来越擅长零样本学习,但与任何推理一样,它可能是错误的。