人工智能(AI)日益成为周围世界的一部分,迅速改变着我们的生活。它提供了令人兴奋的巨大机遇,有时候也可能让人有些害怕。毫无疑问,目前在AI领域引起轰动的重大发展就是生成式AI。
恰如其名,生成式AI能够创造各种事物,从文字和图像到视频、音乐、计算机应用,甚至整个虚拟世界。
生成式AI之所以不同而特殊,是因为它将机器智能的力量交到了几乎每个人的手中。
我们已经习惯了在日常生活中使用由AI驱动的应用和工具。谷歌用它来找到我们需要的信息;亚马逊用它来建议我们购买的东西;Netflix用它来推荐电影;Spotify用它来播放音乐——这一切都依赖于AI。
但新一代的生成式AI工具走得更远,赋予了我们以惊人的方式建立和创造的力量。经过一些练习,我们甚至可以使用它们来构建我们自己的AI应用和工具。因为它消除了技术障碍,真正可以被看作是期待已久的AI民主化的开端。
因此,这里将以简单的方式概述生成式AI为何如此强大,以及您可以用它做些什么。还将非技术性地介绍它的工作原理,但最重要的是,将解释为什么它将改变世界,以及每个人应该为之做些什么准备。
“AI”这个术语,如今被用来指代能够有效模拟人类认知过程的计算机算法,包括学习、决策、问题解决,甚至创造力。
而在这其中,也许最具人类特质的就是创造力,生成式AI应运而生。与所有现代AI一样,生成式AI模型经过数据训练。然后,它们利用这些数据来创造更多数据,遵循它们所学到的规则和模式。
例如,如果你将它训练以猫的图片,它将学会猫有四条腿、两只耳朵和一条尾巴。然后,你可以让它生成自己的猫的图片,它将根据这些基本规则提供你所需的各种变化。
值得理解的一个区别是生成式AI与判别型(或预测型)AI之间的区别。判别型AI主要关注分类,学习”事物”之间的差异,例如猫和狗。这是Netflix或亚马逊等推荐引擎中使用的方法,用来区分你可能想观看或购买的东西,以及你不太可能感兴趣的东西。或者在导航应用中,用来区分从A到B的良好路线和应该避免的路线。
与此不同,生成式AI侧重于理解数据中的模式和结构,并利用这些信息来创建看起来类似的新数据。
生成式AI可以做什么呢?
最初生成式AI的用例通常涉及创建文本和图像,但随着技术的不断发展,出现了无限可能。以下是其中一些用途:
图像:许多生成式AI工具,如Midjourney或Stable Diffusion,可以接受自然语言(即人类语言)的提示,并用它来生成图片。告诉它你想要一个穿着猫王装、驾驶宇宙飞船飞向黑洞的双头狗的图片,然后看着它(或接近这个描述的东西)出现在你眼前。
文本:ChatGPT可能是引发当前生成式AI热潮的主要原因,但还有其他生成型文本工具,如谷歌的Bard和Meta的Llama。它们可以用来撰写从论文和文章到戏剧、诗歌和小说等各种文本。
编码:除了ChatGPT,像微软的GitHub Copilot和亚马逊的CodeWhisperer等工具使任何人都能轻松生成计算机代码,几乎不需要技术知识。
音频:生成式AI工具可以创建类似人类的声音(语音合成),使计算机能够发出人类从未发出过的词汇,还可以生成音乐和声音效果。
视频:虽然还没有像文本或图像生成那样高级,但已经开始出现一些工具,允许我们通过描述所需内容来创建和编辑视频。
数据增强:生成式AI使创建完全合成的数据集变得容易,用于训练其他AI模型,这些模型遵循现实世界的规则,而不会给存储和使用这些数据的人带来隐私和数据安全方面的义务。
虚拟环境:想象一下可以探索和互动的虚拟现实(VR)环境或视频游戏世界,或者被炒得沸沸扬扬的元宇宙概念。设计这些环境是一个极其复杂的任务,生成式AI的帮助可以大大加速这个过程。
生成式AI的工作原理
与我们今天看到的所有AI一样,生成式AI源于一门称为机器学习(ML)的AI研究和实践领域。
传统的计算机算法是由人类编写的,用于明确告诉机器如何执行特定的任务,而机器学习算法在接受更多数据的情况下,会不断提高其工作表现。
将这些算法组合在一起,以使它们能够基于所学知识生成新数据,就会得到一个模型 – 本质上是一个调整为生成特定类型数据的引擎。
在生成式AI应用中使用的一些模型示例包括:
大型语言模型(LLM)– 通过吸收大量文本,它们学习了单词之间的语义关系,并利用这些数据生成更多语言。一个LLM的例子是由OpenAI创建的GPT-4,它驱动了ChatGPT工具。
生成对抗网络(GANs)– 这些网络通过将两个竞争算法相互对抗,一个任务是生成类似于其训练数据的数据,另一个任务是尝试判断输出是否真实或生成的。这种生成模型通常用于创建图像、声音甚至视频。
变分自编码器 – 这是一种模型,通过以捕捉其基本特征的简单方式对数据进行编码,然后找出如何重新构造它,来学习数据是如何构建的。它通常用于生成合成数据。
扩散模型 – 这些模型通过向其学习的数据添加随机数据(称为“噪声”),然后找出如何删除它而保留原始数据 – 从而学习什么是重要的,什么可以被丢弃。扩散模型最常用于图像生成。
变压器模型 – 这是一个包括LLMs在内的一组模型的大致术语,但涵盖了任何通过学习其训练数据中不同元素之间的上下文和关系的模型。
实践中的生成式AI
已经有许多令人惊叹(有时也令人不快)的生成式AI应用示例。
例如,考虑可口可乐的杰出广告 – 这是人类艺术家与AI之间的协作创作,以一种前所未有的方式在屏幕上呈现了历史上许多伟大的艺术作品。
它还被用来创建一首新的披头士乐队歌曲,通过重新制作由John Lennon部分录制的歌词,结合Paul McCartney的新材料。
生成设计是一个新兴领域的术语,其中生成式AI用于创建新产品的蓝图和生产流程。例如,通用汽车使用由Autodesk创建的生成工具来设计一个新的安全带支架,比其现有部件轻40%,强度提高20%。
它还被用于加速药物研发,最近一家英国公司宣布他们已经创建了世界上第一款由AI生成的免疫疗法癌症治疗药物。
生成式AI还是深度伪造现象背后的技术,通过使真实与虚构之间的界限模糊,似乎让真实人物做出或说出虚假的事情。
深度伪造汤姆·克鲁斯(Deepfake Tom Cruise)是最早和最著名的例子之一。更加危险的是,即将到来的2024年美国总统选举中,候选人都曾出演深度伪造视频,旨在为政治目的抹黑他们。
虽然传播宣传信息已经足够糟糕,但也存在着明显的犯罪用途,包括试图通过制造克隆声音的绑架假象来勒索钱财,以及冒充公司CEO欺诈诈骗钱财。
生成式AI所引发的伦理问题
虽然生成式AI显然能够实现令人惊叹的事情,但它的存在明显迫使我们面对一些棘手的问题和疑问。
也许其中一个最大的问题是,人们何时会达到一个无法区分什么是真实的,什么是由AI生成的点。考虑到这一领域的创新速度非常快,这可能很快就会发生。
这就引出了一个问题,即人们是否应该采取一些措施来解决这个问题。包括一些国家已经通过立法,将未经允许的深度伪造视为非法行为 – 世界是否应该效仿?
还有一个问题是,这将如何影响人类的工作 – 如果雇佣他们的公司可以通过命令计算机来创建所需数量的图像、声音和视频,那么创作者的生计会受到威胁吗?
还需要解决的问题之一是版权问题。如果使用AI来创作艺术作品,那么谁拥有它?使用AI创作艺术的人?AI的创建者?还是数千名(很可能)的艺术家,他们的作品被用来(实际上通常是未经许可)训练AI?
所有这些问题都需要回答 – 而且,考虑到这项技术的发展速度正在加快,需要尽快回答。人们如何回答这些问题可能会在决定生成式AI在社会和生活中的未来方面发挥重要作用。