DeepMind推出SIMA 2:Gemini赋能,实现虚拟3D世界中的具身推理与自我学习
DeepMind发布了第二代SIMA(Scalable Instructable Multiworld Agent)——SIMA 2,该智能体在Gemini大模型的加持下实现了显著升级。与第一代SIMA仅能执行指令不同,SIMA 2现在能够推理用户目标、解释其计划和思考过程、学习新的行为方式,并在多个虚拟世界中泛化经验。它通过屏幕级观察感知环境,不直接访问游戏引擎数据,从而增强了通用性。SIMA 2的训练结合了人类演示和AI自监督,展现出跨游戏泛化能力,甚至能在从未见过的游戏中完成任务。此外,它能理解多模态指令,并在Genie 3生成的虚拟世界中行动,甚至通过自我提升机制持续进化,标志着向具身通用智能迈出了重要一步。
去年,DeepMind推出了第一代SIMA(Scalable Instructable Multiworld Agent),它能够在多个3D虚拟世界中执行超过600种语言指令,例如“向左转”、“打开地图”、“爬梯子”等。SIMA 1的意义在于证明AI可以通过观察屏幕、使用虚拟键盘与鼠标操作,而非直接调用游戏API,在不同游戏中像人类一样行动。然而,它仍然只是一个“执行者”,只能机械地照做。
SIMA 2是DeepMind在Gemini大模型的加持下进化而来的全新版本。其核心升级在于:SIMA 2现在不仅能执行任务,还能推理用户目标、对话解释它的计划与思考过程、学习新的行为方式,并在多世界中泛化经验。DeepMind用一句话概括这次跨越:核心机制是Gemini驱动的“具身推理智能”。
SIMA 2的核心是与Gemini大模型的深度集成。Gemini为其提供了复杂推理、语义理解和长期目标规划能力,使智能体能够理解高层次任务目标,将自然语言指令转化为可执行的动作计划,并实时解释自身行为与决策逻辑。这使得SIMA 2能够处理多种输入形式,包括自然语言、游戏画面图像、视觉符号(如表情符号)和多语言输入。模型通过“屏幕级观察”方式感知环境,即不直接访问游戏引擎内部数据,而是通过视觉输入模拟人类感知。这种设计增强了其在不同游戏环境间的通用性与可迁移性。SIMA 2不仅能听懂“做什么”,还能理解“为什么做”,并解释它的推理逻辑。它通过推理其环境和用户的意图来解释抽象概念和逻辑命令。
在训练方式上,SIMA 2首先通过人类示范视频和语言标签学习基本行为;再用Gemini自动生成新的数据标注进行扩展;最终让SIMA 2能自我推理和表达行动计划。这使得人与它的互动变得更像合作伙伴而不是“AI助手”——用户不是在下命令,而是在“共同玩游戏”。
SIMA 2展现出惊人的跨游戏泛化能力。即使在它从未见过的游戏中,它也能迅速理解并完成任务。例如,它能把在某款游戏中学到的“采矿”概念迁移到另一款游戏的“收获(harvesting)”任务上;它能理解更长、更复杂的多步骤指令;它能在从未训练过的游戏(如ASKA、MineDojo、《Valheim》、《No Man’s Sky》等商业开放世界游戏)中完成探索、建造、收集等行为。SIMA 2在没有任何预先训练的情况下,应对了一款全新的游戏,展现出令人印象深刻的进步。
SIMA 2还能识别并执行包含文本、图像或符号的混合指令。例如,它可以综合处理文本指令“Build a bridge across the river.”、一张桥梁的截图图像以及🏠或🌲作为建造或资源指示符的表情符号,将不同模态信号综合为统一任务计划。
DeepMind还将SIMA 2接入了另一个模型——Genie 3,一个能根据文字或图像实时生成3D世界的模型。他们让SIMA 2进入这些从未存在过的虚拟世界中玩耍和探索。结果显示:它能理解环境结构;解析目标;规划合理路径;并自主完成任务。这被研究者称为“在生成的世界中也能立刻行动”,换句话说,它能在全新世界中“自然地学会生存”。
SIMA 2最令人瞩目的特性是它能自学变强。在训练中,它经历了以下循环:Gemini提供初始任务与奖励估计;SIMA 2执行任务、记录经验;系统将这些自生成数据用于再训练下一代模型;新版本更强,再生成更多经验;循环往复,持续进化。这意味着SIMA 2经过多代训练后,在完全没有人类反馈或游戏数据的情况下,实现了自我改进。这一机制被称为“自我提升”。
DeepMind强调,SIMA 2的意义远超“游戏AI”,它代表着迈向“具身通用智能(Embodied AGI)”的重要一步,因为真实世界本质上就是一个复杂、多任务、动态交互的3D环境。