谷歌的人工智能研究部门 DeepMind 推出了Genie 2,这是一种能够仅通过单个图像或文本描述生成无限交互式 3D 环境的人工智能模型。Genie 2 被定位为原始 Genie 模型的后继者,通过模拟沉浸式、交互式和视觉丰富的 3D 世界,有望实现人工智能驱动的内容创作的重大飞跃。本文深入探讨了这项革命性技术带来的创新、影响和挑战。
丰富多样的 3D 世界
DeepMind 将 Genie 2 描述为一个能够生成“丰富多样 3D 世界”的系统。例如,用户只需输入“一个可爱的森林人形机器人”,该模型就能生成一个交互场景,在这个场景中,用户可以通过键盘操作让机器人跳跃、行走或游泳。
该模型不仅能创建静态图像,还能模拟物体的物理特性、反射、照明,甚至非玩家角色(NPC)的行为。
DeepMind 在关于 Genie 2 的官方博客文章中强调了其多功能性:
“得益于 Genie 2 的域外泛化能力,概念艺术和绘图可以转化为完全交互的环境。通过利用 Genie 2 为AI智能体创建丰富多样的环境,我们的研究人员可以生成智能体在训练期间未见过的评估任务。”
这种创建全新场景的能力凸显了 Genie 2 作为创意人员原型设计工具和 AI 智能体测试场的潜力,它提供了与传统训练数据集截然不同的独特环境。
技术:从文本到沉浸式世界
Genie 2 在世界建模 AI 领域取得了显著进步。它基于视频数据集进行训练,弥合了计算机视觉、生成建模和物理模拟之间的鸿沟。然而,与许多先进模型一样,Genie 2 的训练数据来源及其合法性引发了人们的担忧。
DeepMind 对其数据来源的具体细节守口如瓶。有猜测认为,由于谷歌拥有 YouTube 平台,因此 DeepMind 可能利用了 YouTube 庞大的内容库。这引发了关于知识产权(IP)的问题,尤其是考虑到许多训练视频可能源自享有版权的 AAA 级游戏。
在一个有争议的例子中,《连线》杂志对 AI 模型进行的一项调查提出了一个关键问题:
“如果 AI 模型从受版权保护的作品中学习,那么其输出是否构成侵权,还是属于合理使用?”
这仍然是 AI 开发中的一个灰色地带,并可能随着 DeepMind 技术的成熟而成为其发展的重大障碍。
Genie 2 与竞争对手的比较
世界模拟模型并非全新概念。World Labs、Decart 等公司一直在开发类似系统。例如,受《我的世界》启发的 Decart 模拟器 Oasis 能够创建低分辨率的交互关卡,但在连贯性和细节方面存在不足。相比之下,Genie 2 凭借其以下能力脱颖而出:
- 保持场景记忆:与 Oasis 不同,Genie 2 能够记住模拟世界中隐藏或屏幕外的元素,当这些元素重新出现在视线中时,能够实现无缝再发现。
- 生成高质量、交互式环境:其许多模拟在细节上可与现代 AAA 级视频游戏相媲美。
应用与局限
尽管具有巨大潜力,但 Genie 2 仍存在一些实际局限性。大多数生成的场景持续时间仅为 10 至 20 秒,部分可延长至一分钟。这一时间限制限制了其在完整游戏开发中的可行性,但使其成为快速原型的理想选择。
DeepMind 将 Genie 2 定位为创意和研究工具,而非商业游戏引擎。该公司表示:
“Genie 2 能够智能响应键盘按键操作所采取的行动,识别角色并正确移动它。例如,我们的模型[能够]弄清楚箭头键应该移动机器人,而不是树木或云朵。”。
研究人员可利用 Genie 2 模拟环境,在新场景中测试 AI 智能体。它还可作为概念艺术与游戏设计之间的桥梁,加速开发者的工作流程。
对创意人员的影响与知识产权挑战
对于创意人员而言,Genie 2 的影响深远。艺术家、设计师和游戏开发者可利用它在几秒钟内将草图转换为完全交互的 3D 世界。然而,这也引发了道德和职业方面的担忧。例如,游戏行业越来越依赖 AI 来自动化工作流程。
《连线》杂志最近的一项调查强调了动视暴雪等公司如何利用 AI 工具降低成本——有时以牺牲员工为代价。
滥用的可能性显而易见。AI 工具如 Genie 2 是否会取代人类创造力?或者它们能否通过承担重复性任务来对其进行补充?答案可能取决于公司如何实施此类技术。
AI 世界建模的未来
DeepMind 的 Genie 2 是向世界建模 AI 领域广泛推进的一部分。2022年,该公司聘请了前 OpenAI 研究员蒂姆·布鲁克斯(Tim Brooks),他曾在视频生成技术方面开展工作。同样,DeepMind 还从 Meta 挖来了蒂姆·洛克塔谢尔(Tim Rocktäschel),他因在游戏 AI 的开放性方面的工作而闻名。
这些战略性招聘凸显了谷歌致力于将世界模拟器打造为未来 AI 发展的基石。
学术界对世界模型的兴趣也日益浓厚。Leike等人(2023年)最近发表的一篇论文探讨了世界模型在 AI 代理评估中的作用,并指出:
“生成式世界模型提供了一个独特的机会,可以在不受现实世界物理或现有数据集约束的环境中测试代理。这些模型使研究人员能够探索新场景并训练更具适应性的代理。”
这与 DeepMind 的既定目标一致:使用 Genie 2 作为创建代理在训练期间无法预料的评估环境的工具。
结论
Genie 2 展示了生成式人工智能在重新定义我们创建和与数字环境交互方式方面的巨大潜力。尽管它尚未准备好彻底改变游戏设计,但其作为创意和研究工具的作用不容忽视。通过实现快速原型制作和拓宽AI测试的视野,Genie 2 开启了激动人心的可能性,但同时也引发了关于伦理、知识产权和未来工作的辩论。
随着学术界和工业界对世界模型的兴趣日益增长,有一点是明确的:Genie 2 只是一个开始。它是否会激发新的创意形式,还是会颠覆已建立的产业,取决于未来几年中它如何被使用——以及受到何种监管。