AI研究人员研制了一个可以在开放世界游戏Minecraft中探索和提高能力的机器人,与聊天机器人等其他AI不同,Voyager通过大量的试错与GPT-4查询来编写自己的代码,实现在Minecraft世界中的自主学习与进步。
这是一种“具象化智能体”的例证,即一个可以在模拟或真实环境中自由自觉行动的AI系统。
Minecraft是一个测试此类AI系统的很好场景。它简约模拟了现实世界,具有简单明了的规则与物理机制,但同时也足够复杂开放,具有丰富的操作空间供AI探索。而专门的模拟环境虽好,但也存在自身局限。
MineDojo提供了丰富的Minecraft环境数据和评估手段,用于训练与评价AI模型。它包含YouTube视频、游戏文字稿、维基百科等信息,可以用来创建及调优AI模型。它还提供了较为客观的模型评估方式,通过观察模型完成工作如围栏羊驼或开采钻石来进行评价。
Voyager系统在MineDojo的评估任务中表现优异,远超其他模型。Voyager与Auto-GPT等模型采用相似方法,使用GPT-4实时生成代码,实现在Minecraft环境中的学习与进步。但Voyager起初相对简单,会与GPT-4就遇到的事物进行内部对话,询问下一步的操作与方法。
Voyager的设计方法具有重要意义。它通过与GPT-4的互动学习,在游戏过程中持续提高自己,这种融合监督学习与强化学习的方法可以实现AI在复杂开放域的自主进步。Voyager不需要提前训练大量Minecraft环境数据,而是在游戏中实时学习与演化,这为AI的跨环境迁移与应用提供思路。
Voyager的方法类似于Auto-GPT,需要自行学习以完成目标,但Minecraft世界更加复杂,Voyager作为专用AI可以实现更佳表现。Voyager可以发现更丰富内容,学习更广范围技能,探索更大空间,超越其他AI系统。
在生成有效代码方面,GPT-4的表现远超GPT-3.5。使用GPT-3.5替换GPT-4的测试使Voyager系统很快遇到障碍,难以继续提高与进步。虽然与两者交互时GPT-4的智能优势不太明显,但事实上,进行看似智能的对话并不需要高超智能,这正是GPT-4在编码方面进行重大升级的原因。
这项研究表明,AI与语言模型的融合可以实现AI在模拟环境中的自主进步。通过选择合适的语言模型,AI可以实现环境学习与技能获取。这为AI的发展与应用指明方向,即选择强大的语言模型作为AI的互动支撑与知识来源。只有当AI可以自主感知环境并进行决策时,它才能真正应用于现实生活与工作中。