人工智能的未来可能在于沉浸式现实吗？

利默里克大学的Mairtín Cunneen博士研究了人工智能带来的机遇以及沉浸式和虚拟世界的潜力。

2023年可能是人工智能成为全球和社会现象的著名年份。主要是因为全世界数十亿来自各个生活领域、年龄和背景各个领域的人，都在积极参与人工智能，与人工智能进行交流和互动。对许多用户来说，这种参与可能感觉像是与另一个具有代理和个性的类人智能生物的对话。

在复杂的类人智能出现的背后，有无数的图形处理单元（GPU）服务器分布在数千个数据中心，实现了大型语言模型（LLM）的功能，这些模型主要从废弃的在线数据中学习和复制人类语言使用的模式。

ChatGPT的崛起

OpenAI于2022年11月30日向全球推出了ChatGPT，并于2023年3月14日向全球推出ChatGPT-4。ChatGPT在全球取得成功的部分原因在于以网页和应用程序形式提供的免费服务的平台模型。

LLM体系结构的复杂性从一开始就很明显，它是如何产生快速响应并同时回答无数主题的数百万个问题。无论是常识、科学还是学术主题，LLM都是人类知识和智慧的源泉。

尽管人们对答复的真实性、可靠性和准确性表示担忧，但使用的规模仍在继续扩大。以至于LLM的使用似乎在短时间内正常化，ChatGPT的使用超过了所有其他平台，甚至超过了TikTok等社交媒体平台此前创下的记录。ChatGPT成为一个人工智能平台，在推出后仅两个月内就获得了1亿用户，并继续受到数十亿全球用户的参与。

随着其越来越受欢迎，人们进一步质疑该模型如何编造出根本不真实的答案，但往往看起来是可靠的信息，有时会有虚假的引用和支持来源。这种反应被称为“幻觉”，这一结果意味着必须对输出结果做出免责声明，声明它们并不总是准确或真实的。

从文本到图像

在全球关注LLM的同时，用于图像和视频生成的生成式人工智能应用也受到了极大关注。DALL-E、Stable Diffusion和Midjourney等平台通过创建逼真的图像和视频，让世界惊叹不已。其中一些在2023年成为病毒图像，吸引了媒体对人工智能的大部分关注。

生成式人工智能模型正朝着更复杂的模型发展，其参数数量之多令人难以想象，从而产生更复杂的反应。目前的开发阶段涉及多模式模型，它可以将文本、图像、音频和视频等不同模式的数据组合起来，以创建越来越复杂的输出。

从图像到视频

2024年2月，OpenAI推出了Sora，被描述为“一种可以从文本指令中创建逼真和富有想象力的场景的AI模型”。Sora的架构展示了人工智能的演变，提供了更复杂的模型来处理更复杂的数据，并可能组合不同的模式。

Sora生成的视频令人印象深刻，因为在一年多一点的时间里，人工智能已经从文本、音频和图像进化为照片级真实感的视频内容。一个有趣的结果涉及确定什么是真实的，什么是人工智能生成的挑战。当世界继续接受并接受人工智能如此普遍和复杂的应用时，其他紧迫的社会和伦理问题需要考虑。

人工智能的未来是沉浸式现实

许多问题与未来几个月和几年人工智能的持续发展将带来哪些影响、机遇和挑战有关。例如，考虑到LLM、生成式人工智能和照片逼真视频创作的巨大全球影响，未来两年的创新可能会带来什么？

按照多模式人工智能的发展轨迹，未来一年左右最具影响力的可能性之一与人工智能如何创造逼真的沉浸式现实和虚拟世界有关。促使人工智能创造和重新创造空间的潜力是一种激进的、潜在的奇妙的、也具有挑战性的东西。

想象一下，全世界的人都在要求人工智能创造一个沉浸式空间，在其中放松、社交或学习。复杂的沉浸式环境将与现实世界一样，例如，OpenAI的Sora表示：“模型不仅了解用户在提示中的要求，还了解这些东西在物理世界中是如何存在的。”

通过在古雅典与苏格拉底和柏拉图进行对话，促使人工智能创造一个沉浸式的环境来学习柏拉图的对话。为了实现这一点，模型需要所需的数据，在这种情况下，数据可能是可用的，而且使用可用的数据，可以将环境创建到复杂的照片逼真度水平。因此，使用柏拉图的对话和无数支持性的学术文本，苏格拉底和柏拉图看起来像是引人入胜的参与者。

这里的关键是，人工智能正在创造一种看起来很像现实世界的体验，但它是根据用户给的背景而创造的，可能与更准确的描述非常不同。惊人的潜力在于，任何人都可以提示人工智能创建自己选择的沉浸式现实，如果人工智能拥有所需的数据，该模型可能会在创建复杂体验方面做得很好。

想象一下，作为一名身临其境的再现活动的参与者，对爱因斯坦的讲座或学习历史进行再现。到目前为止，创造这样的数字体验需要大量的成本和编程、设计和开发方面的人力专业知识。从教育和学习到科学实验和社会参与，其潜在用途令人震惊。人工智能可以在身临其境的现实中创造世界的方方面面。

还有无数其他机会，比如与人工智能理疗师进行常规接触，后者可以评估和指导你的康复，或者在沉浸式环境中与私人老师进行接触，在这种环境中，可以以新的方式发展基于实践的学习。

风险与道德

人工智能为人们重新创造沉浸式和虚拟世界的潜力的一个重要机会在于，在这些技术广泛可用、商业化并嵌入社会之前，现在需要专注于预测和解决潜在的风险和道德问题。

一个关键问题是，我们如何从社交媒体的错误中吸取教训，创建面向社交的平台，减少对广告技术、行为分析和虚假信息的关注，并创造更多的社会积极空间？此外，在准入和包容性方面还有一些重要问题和挑战需要解决。

对于如何解决数据集中嵌入的偏见，尤其是那些依赖历史和公共数据的数据集，也存在严重的问题。众所周知，算法和人工智能应用会进一步放大嵌入的偏见，这会带来显著的歧视和伤害风险。此外，如果这些空间是商业空间，则需要在决定其设计和使用的商业模式方面提高透明度。

一个基本问题涉及隐私和有效支持隐私权的挑战。此外，为数十亿人提供人工智能的环境和气候成本如何？是否应该让人们更多地意识到数百万GPU、服务器和无数数据中心的能源和资源成本？现在重要的是要解决这些问题，并尝试预测人工智能的机会和风险以及下一阶段的创新。

人工智能的使用和沉浸式现实的发展是一项大生意。2023年7月，欧盟委员会在其虚拟世界和元宇宙战略中强调了沉浸式现实创新的战略重要性。该公司预计到2025年将有86万个新工作岗位，并估计到2030年虚拟世界市场将增长到8000亿美元以上。

欧盟意识到解决这些问题的挑战，其战略的一部分是支持预测和提高沉浸式现实、虚拟世界和元宇宙的社会价值的研究。

重大的技术发展已经在发生，混合现实（MR）在2024年2月随着苹果推出Vision Pro并支持visionOS而引起全球关注。VisionPro是一种MR设备，但被苹果公司称为空间计算机。

考虑到所有这些可能的创新机会和伦理问题，利默里克大学（UL）正在进行研究，以评估未来的社会和商业机会，以及开发沉浸式现实的风险。研究的具体重点是文化艺术作为一种面向MR创新的社会和商业。

这项研究是XTREME项目的一部分，这是一个由欧盟资助的项目，由哥本哈根国际电联领导，由15个学术和行业合作伙伴组成。跨学科团队负责开展研究，以预测如何使下一代MR和沉浸式体验更加合乎道德和值得信赖。

人工智能以及沉浸式和虚拟世界的潜力带来了很多机会。UL的研究将重点解决与人工智能创新和沉浸式世界的新兴阶段有关的一些最具挑战性的社会和伦理问题。