谷歌DeepMind发布SIMA2:通用智能体在复杂3D虚拟世界中性能显著提升
谷歌DeepMind近日推出SIMA2,一款基于Gemini模型的通用智能体,旨在提升其在复杂3D游戏世界中的表现。SIMA2整合了Gemini2.5Flash Lite作为核心推理引擎,使其不仅能执行指令,还能与玩家互动,并能解释意图、回答问题。相比前身SIMA1的31%任务完成率,SIMA2的任务完成率已提升至62%,接近人类玩家的71%。该智能体还扩展了指令渠道,支持文本、语音、图形和表情符号,并通过自我改进机制在无需额外人类演示的情况下学习新任务。SIMA2与Genie3结合,展示了在全新3D环境中识别物体和完成任务的能力,标志着通用智能体向现实世界机器人迈进的重要一步。
谷歌DeepMind近期发布了SIMA2,旨在测试通用智能体在复杂3D游戏世界中的性能。SIMA2(可扩展可指令多世界智能体)在原有基础上进行了升级,采用了Gemini模型,使其能够更好地理解目标、解释计划并通过自我学习在不同环境中不断进步。SIMA2的前身SIMA1于2024年问世,当时它通过渲染图像和虚拟键盘鼠标进行控制,学习了600多项语言指令,任务完成率约为31%,而人类玩家的完成率则高达71%。
SIMA2在保留相同界面的基础上,使用Gemini2.5Flash Lite作为核心推理引擎。这使得SIMA2不仅仅是指令执行者,更成为了与玩家互动的游戏伙伴。SIMA2的架构将Gemini整合为核心部分,通过接收视觉观察和用户指令,推导出高层目标并产生相应的操作。这种新的训练模式使得智能体能够解释自己的意图,回答有关当前目标的问题,并展示其对环境的推理过程。在DeepMind的评估中,SIMA2的任务完成率提升至62%,几乎达到了人类玩家的水平。
SIMA2还扩展了指令渠道,不仅能够理解文本指令,还能处理语音、图形甚至表情符号。在一项演示中,用户要求SIMA2找到“像熟透的番茄一样颜色的房子”,它能够推理出“熟透的番茄是红色的”,并顺利找到目标。自我改进也是SIMA2的一大亮点。在初期阶段使用人类的游戏演示后,智能体进入新游戏,完全依靠自己的经验进行学习。Gemini模型为智能体生成新任务并评分,这使得后续版本在许多之前失败的任务上也能成功,而无需额外的人类演示。
最后,DeepMind结合SIMA2与Genie3,通过单一图像或文本提示生成互动3D环境,展示了智能体在全新环境中如何识别物体并完成指定任务。这标志着一个通用智能体向更高级的现实世界机器人发展的重要一步。