技术AI创新科技

DeepMind推出SIMA 2：Gemini赋能，实现虚拟3D世界中的具身推理与自我学习

DeepMind发布了第二代SIMA（Scalable Instructable Multiworld Agent）——SIMA 2，该智能体在Gemini大模型的加持下实现了显著升级。与第一代SIMA仅能执行指令不同，SIMA 2现在能够推理用户目标、解释其计划和思考过程、学习新的行为方式，并在多个虚拟世界中泛化经验。它通过屏幕级观察感知环境，不直接访问游戏引擎数据，从而增强了通用性。SIMA 2的训练结合了人类演示和AI自监督，展现出跨游戏泛化能力，甚至能在从未见过的游戏中完成任务。此外，它能理解多模态指令，并在Genie 3生成的虚拟世界中行动，甚至通过自我提升机制持续进化，标志着向具身通用智能迈出了重要一步。

2025年11月17日 03:29

Xiaohu.AI 日报

去年，DeepMind推出了第一代SIMA（Scalable Instructable Multiworld Agent），它能够在多个3D虚拟世界中执行超过600种语言指令，例如“向左转”、“打开地图”、“爬梯子”等。SIMA 1的意义在于证明AI可以通过观察屏幕、使用虚拟键盘与鼠标操作，而非直接调用游戏API，在不同游戏中像人类一样行动。然而，它仍然只是一个“执行者”，只能机械地照做。

SIMA 2是DeepMind在Gemini大模型的加持下进化而来的全新版本。其核心升级在于：SIMA 2现在不仅能执行任务，还能推理用户目标、对话解释它的计划与思考过程、学习新的行为方式，并在多世界中泛化经验。DeepMind用一句话概括这次跨越：核心机制是Gemini驱动的“具身推理智能”。

SIMA 2的核心是与Gemini大模型的深度集成。Gemini为其提供了复杂推理、语义理解和长期目标规划能力，使智能体能够理解高层次任务目标，将自然语言指令转化为可执行的动作计划，并实时解释自身行为与决策逻辑。这使得SIMA 2能够处理多种输入形式，包括自然语言、游戏画面图像、视觉符号（如表情符号）和多语言输入。模型通过“屏幕级观察”方式感知环境，即不直接访问游戏引擎内部数据，而是通过视觉输入模拟人类感知。这种设计增强了其在不同游戏环境间的通用性与可迁移性。SIMA 2不仅能听懂“做什么”，还能理解“为什么做”，并解释它的推理逻辑。它通过推理其环境和用户的意图来解释抽象概念和逻辑命令。

在训练方式上，SIMA 2首先通过人类示范视频和语言标签学习基本行为；再用Gemini自动生成新的数据标注进行扩展；最终让SIMA 2能自我推理和表达行动计划。这使得人与它的互动变得更像合作伙伴而不是“AI助手”——用户不是在下命令，而是在“共同玩游戏”。

SIMA 2展现出惊人的跨游戏泛化能力。即使在它从未见过的游戏中，它也能迅速理解并完成任务。例如，它能把在某款游戏中学到的“采矿”概念迁移到另一款游戏的“收获（harvesting）”任务上；它能理解更长、更复杂的多步骤指令；它能在从未训练过的游戏（如ASKA、MineDojo、《Valheim》、《No Man’s Sky》等商业开放世界游戏）中完成探索、建造、收集等行为。SIMA 2在没有任何预先训练的情况下，应对了一款全新的游戏，展现出令人印象深刻的进步。

SIMA 2还能识别并执行包含文本、图像或符号的混合指令。例如，它可以综合处理文本指令“Build a bridge across the river.”、一张桥梁的截图图像以及🏠或🌲作为建造或资源指示符的表情符号，将不同模态信号综合为统一任务计划。

DeepMind还将SIMA 2接入了另一个模型——Genie 3，一个能根据文字或图像实时生成3D世界的模型。他们让SIMA 2进入这些从未存在过的虚拟世界中玩耍和探索。结果显示：它能理解环境结构；解析目标；规划合理路径；并自主完成任务。这被研究者称为“在生成的世界中也能立刻行动”，换句话说，它能在全新世界中“自然地学会生存”。

SIMA 2最令人瞩目的特性是它能自学变强。在训练中，它经历了以下循环：Gemini提供初始任务与奖励估计；SIMA 2执行任务、记录经验；系统将这些自生成数据用于再训练下一代模型；新版本更强，再生成更多经验；循环往复，持续进化。这意味着SIMA 2经过多代训练后，在完全没有人类反馈或游戏数据的情况下，实现了自我改进。这一机制被称为“自我提升”。

DeepMind强调，SIMA 2的意义远超“游戏AI”，它代表着迈向“具身通用智能（Embodied AGI）”的重要一步，因为真实世界本质上就是一个复杂、多任务、动态交互的3D环境。

阅读原文

DeepMind推出SIMA 2：Gemini赋能，实现虚拟3D世界中的具身推理与自我学习

相关新闻

Moonshine Voice：专为边缘设备设计的快速准确自动语音识别（ASR）解决方案

Scrapling：自适应网络爬取框架，助力高效数据抓取

GitHub热榜项目：智能体技能集赋能上下文工程与多智能体系统