超越文字的时代:大语言模型(LLMs)的崛起和人类命运的转折点
超越文字的时代:大语言模型(LLMs)的崛起和人类命运的转折点

超越文字的时代:大语言模型(LLMs)的崛起和人类命运的转折点

一旦机器自主思考的方法开始出现,我们的微弱能力将很快被超越……它们将能够相互交谈,磨砺彼此的智慧。因此,我们应该预料到在某个阶段,机器将掌控一切。——艾伦·图灵(1912-1954)

今天我们生活在大语言模型(LLMs)的时代,这些模型赋予了像GPT4、ChatGPT、DALL·E等众多AI技术以强大的能力。这些技术造就了人类历史上一些最重大的突破,因此我们正处于一个重大的社会转变的边缘。很快,在我们有生之年,我们所开发和广泛使用的AI系统可能会比所有人类的综合智能都要强大得多。这既可能是人类的福音,也可能是一个诅咒。

这可以被称为福音,是因为无数的可能性被发现和尚未被发现,这些可能性有潜力赋予人类力量,使人类摆脱普遍存在的贫困、苦难和永恒的人类愿望——”幸福”。

而将其称为诅咒,是因为超智能AGI(人工通用智能)所拥有的权力,有潜力有意或无意地摧毁整个人类文明。这种威胁可能以奥威尔小说《1984》中描绘的奥威尔式极权主义形式出现,或者以赫胥黎小说《美丽新世界》中描述的不完美世界的形式出现。在该小说中,他说:“人们将开始喜爱他们的压迫,热爱使他们失去思考能力的技术”。

我们目前正在经历一种迅速而深刻的过渡,从一个存在阶段过渡到另一个存在阶段,我们对那些无法适应变化的物种所面临的命运是心知肚明的——它们将面临灭绝。因此,对于我们来说,全身心地研究这些主题并沉浸在它们的探索中非常重要,通过这样的探索,我们可以获得必要的知识和洞察力,以应对我们面前的非凡之路。

想象一下拥有一个聪明的朋友,他能理解你的话并以有意义的方式回应。语言模型就像那些聪明的朋友,但以计算机程序的形式存在。它们使用先进的技术从大量文本中学习,并在理解和生成语言方面变得非常出色。它们可以完成句子、翻译语言、回答问题,并分析文本中的情感或情绪。

起源:大语言模型(LLMs)的崛起

研究早期的语言模型非常重要,因为它们为后来的进展奠定了基础。它们让我们更加了解语言的运作方式以及计算机如何从中学习。但它们无法完全理解人类语言的复杂性。它们采用了不同的方法来理解单词和句子的意义。

一种方法是使用规则,这些规则就像处理语言的指令。这些规则是由专家创建的,告诉计算机如何分析和生成语言。但是这些基于规则的系统在处理人类语言的复杂性时遇到了困难,通常无法完全理解其含义。

另一种方法是使用统计学,即从大量语言示例中寻找模式。计算机会从这些模式中学习,并猜测接下来可能出现的单词。虽然这种方法在处理某些语言的复杂性方面更好,但在理解上下文和生成有意义的句子方面仍存在局限性。

后来,出现了一种更先进的模型,它使用了新的技术,使其在理解和生成语言方面更加出色。这个新模型可以捕捉单词之间的关联,并更有效地理解上下文。它被称为Transformer。

Transformer:语言模型的突破性进展

当然,这并不是指变形金刚,我们在这里谈论的是序列到序列问题中的深度学习模型,比如神经机器翻译。在早期的提案中,使用了RNN(循环神经网络)在编码器-解码器架构中。然而,这些架构在在添加新元素时难以保留来自长序列开头的信息。编码器的隐藏状态通常与输入句子中最近的单词相关联。因此,如果解码器仅依赖于最后一个隐藏状态,它将丢失有关初始元素的重要信息。为了解决这个限制,引入了注意力机制。

注意力机制不仅仅依赖于编码器的最后一个状态,还使解码器能够访问编码器的所有状态,从整个输入序列中获取信息。这涉及提取过去编码器状态的加权和,使解码器能够在预测下一个输出元素时为每个输入元素赋予重要性。然而,这种方法仍然有一个限制:每个序列必须逐个元素进行处理。编码器和解码器需要在处理第t个步骤之前等待t-1个步骤的完成。因此,在处理大型数据集时,这种方法变得耗时且计算效率低下。

Transformer模型利用自注意力机制提取每个单词的特征,确定其与句子中其他单词的关联重要性。与循环单元不同,这种特征提取涉及加权和和激活,使其高度可并行化和高效。

这种注意力机制的应用是在论文《Attention is all you need》(Vaswani, Ashish & Shazeer, Noam & Parmar, Niki & Uszkoreit, Jakob & Jones, Llion & Gomez, Aidan & Kaiser, Lukasz & Polosukhin, Illia. (2017))[1] 中引入的。这篇论文在使用注意力机制方面取得了重大突破,这也是被称为Transformer的模型的关键增强。

目前在自然语言处理任务中出现的最著名的模型之一是由几十个Transformer组成的,其中的一个变种就是GPT-2。

大语言模型(LLMs)的前身

在这里,我们将探讨两个具有影响力的模型,Word2Vec和GloVe,它们在自然语言处理中彻底改变了单词的表示方式。此外,我们还将深入探讨递归神经网络(RNN)及其处理序列数据的能力。让我们揭示这些模型的关键方面以及它们对语言处理领域的贡献。

Word2Vec:这是一个在2013年推出的流行模型。它将单词表示为高维空间中的密集向量,捕捉单词的含义。通过在大规模文本数据上进行训练,它学会了在给定目标单词的情况下预测周围的单词。Word2Vec改变了自然语言处理中的单词表示方式,使我们能够更好地理解单词的含义。

GloVe:GloVe是在2014年推出的另一个有影响力的模型。它将单词表示为连续空间中的向量,并使用关于单词共现的全局统计信息。通过考虑单词的上下文,GloVe捕捉到了语义和句法关系,增强了语言的理解能力。

递归神经网络(RNN):RNN是一种能够处理序列数据(如句子)的神经网络。它们维护内部记忆以捕捉先前的信息。RNN在基于输入序列生成相关输出方面表现出色,但在处理长期依赖性和理解广泛上下文方面存在困难。

这些模型展示了学习单词的分布式表示、捕捉语义关系以及建模序列数据的重要性。这为诸如GPT-3及其后续的先进大规模语言模型奠定了基础,推动了语言处理的边界。

语言模型的演进

追溯大规模语言模型的进展时间线,从GPT-1到GPT-3及其后续。

GPT-1(Generative Pre-Trained Transformer 1):2018年,OpenAI推出了GPT-1,这是一种基于Transformer的开创性大规模语言模型。它在海量的互联网文本数据上进行了训练,并展示了令人印象深刻的语言能力,在各种任务中表现出色。

GPT-2(Generative Pre-Trained Transformer 2):在2019年发布的GPT-2将大规模语言模型推向了新的高度。凭借比GPT-1更大的数据集和15亿个参数,它展示了出色的文本生成能力。尽管最初因为担忧而受到限制,OpenAI后来将完整模型开放给公众使用。

GPT-3(Generative Pre-Trained Transformer 3):于2020年发布的GPT-3代表了大规模语言建模的重大突破。它成为有史以来最大的模型之一,拥有1750亿个参数。GPT-3展示了非凡的语言生成能力,在各种任务中表现出色,包括回答问题、生成代码和逼真对话等。ChatGPT是基于GPT-3架构的。术语“ChatGPT”通常用来指代专为交互式对话和对话系统而设计的GPT-3模型的特定实现。

此外,OpenAI的首席执行官Sam Altman在接受采访时确认,GPT-4的参数数量将约为1万亿。因此,这将是超级AGI发展中的又一巨大飞跃。

关于工作岗位的影响

我们毫不怀疑,AI领域的这一巨大飞跃将创造出新的工作机会。但这是否意味着我们今天在世界各地看到的一些工作岗位将在明天消失?

让我们看看Sam Altman在其中一次采访中对类似问题的回答。

“一个可能会受到巨大影响的工作类别,可以说是客户服务类型的,相对不久的将来可能只有更少的工作岗位。我不能百分百确定这一点,但我预测是这样的。我想明确一点,我认为这些系统会让很多工作消失。每一次技术革命都会如此。它们将提升许多工作,使它们变得更好、更有趣、薪水更高,并创造出我们很难想象的新工作,即使现在我们只能看到他们最初的样貌。

我认为,作为一个社会,我们不确定工作更多还是更少是正确的。当然,我们对于大多数人是否喜欢他们的工作并从中获得价值也感到困惑。有些人确实喜欢他们的工作;我喜欢我的工作,我猜你也是如此。这是一种真正的特权,不是每个人都能这样说的。如果我们能将更多的人带入更好的工作,并将工作转变为更广泛的概念,不再是为了生存而必须去做的事情,而是作为创造性表达、寻找满足感和幸福感等的方式。即使这些工作与今天的工作看起来完全不同,我认为这是很好的。”——Sam Altman,OpenAI首席执行官

我们经历了大语言模型的崛起,并见证了它们从“从文字到超越文字”的旅程。我们唯一确定的一点是,这些模型将以更快的速度不断改进。但这并不能保证它们不会以负面方式影响我们的生活。将会有新的工作岗位,但也会有一些现有的工作消失;我们将能够做到10倍的事情,但又会有10倍的事情需要做。唯一确定的是,这个世界将不再是以前的样子。