谷歌的人工智能企业 DeepMind 展示了 Genie 的现场演示,这是一种生成式人工智能模型,可以从数十万个游戏视频中学习游戏机制后,通过简单的提示创建可玩的游戏。
Genie(生成交互环境的缩写)由 Google 和不列颠哥伦比亚大学合作开发,可以根据用户提示创建横向卷轴 2D 平台游戏,例如使用单个图像的《超级马里奥》和《魂斗罗》。
谷歌 DeepMind 表示:“过去几年出现了生成式人工智能,其模型能够通过语言、图像甚至视频生成新颖且富有创意的内容。” “今天,我们推出了生成式人工智能、生成式交互环境的新范例:Genie。”
Genie 可以通过单个图像提示创建交互式、可玩的环境,这要归功于谷歌研究人员所描述的潜在动作模型(推断视频帧之间的动作)、视频标记器(将原始视频帧转换为离散标记)以及动态模型。
谷歌 DeepMind 开发者 Tim Rocktäschel在 Twitter 上表示:“我们不是增加归纳偏差,而是关注规模。” “我们使用来自 2D 平台游戏的超过 20 万小时的视频数据集,并训练 11B 世界模型……然后以无人监督的方式,Genie 学习以一致的方式控制角色的各种潜在动作。”
Rocktäschel 还表示,Genie 可以将其他媒体类型转换为游戏。在随附的 Google DeepMind研究论文中,可以提示 Genie 根据各种输入生成各种动作可控的虚拟世界。
“我们的模型可以将任何图像转换为可玩的 2D 世界。”Rocktäsche 说,“Genie 可以将人类设计的创作(例如草图)变为现实。”
虽然 Genie 擅长从文本或图像创建 2D 世界,但 Rocktäschel 表明 AI 模型可以做的不仅仅是构建横向卷轴游戏,还包括向其他 AI 模型或“代理”传授有关 3D 世界的潜力。
“我们还在没有动作的机器人数据(RT-1)上训练 Genie,并证明我们也可以在那里学习动作可控模拟器。”他说,“我们认为这是迈向 AGI 通用世界模型的充满希望的一步。”
通用人工智能 (AGI),是指能够像人类一样理解并在各种任务中应用学到的知识的人工智能。
谷歌 DeepMind 表示,Genie 的数据集是通过过滤公开的互联网视频生成的,特别是那些包含“dpeedrun”或“playthrough”等标题的视频,同时排除“电影”或“拆箱”等词语。
谷歌 DeepMind 表示,人工智能技术、硬件和数据集的进步使得能够创建连贯的对话语言和“清晰且美观”的图像。
研究人员继续说道:“在选择关键字时,我们会手动抽查结果,以检查它们通常会制作 2D 平台游戏视频,而这些视频的数量不会被恰好共享相似关键字的其他类型视频所超越。”
谷歌 DeepMind 表示:“有了 Genie,我们未来的人工智能代理可以在新的、生成世界永无止境的课程中接受训练。” “在我们的论文中,我们有一个概念证明,即 Genie 学到的潜在动作可以转移到真实的人类设计环境中,但这只是未来可能发生的事情的表面。”
在很大程度上要归功于去年 OpenAI 的 GPT-4 的推出,包括谷歌、微软和亚马逊在内的科技公司在生成式人工智能领域投入了大量资金。本月早些时候,谷歌宣布在 Google Bard 更名后推出 Gemini AI 模型的订阅版本。