返回列表
技术AI创新科技

DeepMind推出SIMA 2:Gemini赋能,实现虚拟3D世界中的具身推理与自我学习

DeepMind发布了第二代SIMA(Scalable Instructable Multiworld Agent)——SIMA 2,该智能体在Gemini大模型的加持下实现了显著升级。与第一代SIMA仅能执行指令不同,SIMA 2现在能够推理用户目标、解释其计划和思考过程、学习新的行为方式,并在多个虚拟世界中泛化经验。它通过屏幕级观察感知环境,不直接访问游戏引擎数据,从而增强了通用性。SIMA 2的训练结合了人类演示和AI自监督,展现出跨游戏泛化能力,甚至能在从未见过的游戏中完成任务。此外,它能理解多模态指令,并在Genie 3生成的虚拟世界中行动,甚至通过自我提升机制持续进化,标志着向具身通用智能迈出了重要一步。

Xiaohu.AI 日报

去年,DeepMind推出了第一代SIMA(Scalable Instructable Multiworld Agent),它能够在多个3D虚拟世界中执行超过600种语言指令,例如“向左转”、“打开地图”、“爬梯子”等。SIMA 1的意义在于证明AI可以通过观察屏幕、使用虚拟键盘与鼠标操作,而非直接调用游戏API,在不同游戏中像人类一样行动。然而,它仍然只是一个“执行者”,只能机械地照做。

SIMA 2是DeepMind在Gemini大模型的加持下进化而来的全新版本。其核心升级在于:SIMA 2现在不仅能执行任务,还能推理用户目标、对话解释它的计划与思考过程、学习新的行为方式,并在多世界中泛化经验。DeepMind用一句话概括这次跨越:核心机制是Gemini驱动的“具身推理智能”。

SIMA 2的核心是与Gemini大模型的深度集成。Gemini为其提供了复杂推理、语义理解和长期目标规划能力,使智能体能够理解高层次任务目标,将自然语言指令转化为可执行的动作计划,并实时解释自身行为与决策逻辑。这使得SIMA 2能够处理多种输入形式,包括自然语言、游戏画面图像、视觉符号(如表情符号)和多语言输入。模型通过“屏幕级观察”方式感知环境,即不直接访问游戏引擎内部数据,而是通过视觉输入模拟人类感知。这种设计增强了其在不同游戏环境间的通用性与可迁移性。SIMA 2不仅能听懂“做什么”,还能理解“为什么做”,并解释它的推理逻辑。它通过推理其环境和用户的意图来解释抽象概念和逻辑命令。

在训练方式上,SIMA 2首先通过人类示范视频和语言标签学习基本行为;再用Gemini自动生成新的数据标注进行扩展;最终让SIMA 2能自我推理和表达行动计划。这使得人与它的互动变得更像合作伙伴而不是“AI助手”——用户不是在下命令,而是在“共同玩游戏”。

SIMA 2展现出惊人的跨游戏泛化能力。即使在它从未见过的游戏中,它也能迅速理解并完成任务。例如,它能把在某款游戏中学到的“采矿”概念迁移到另一款游戏的“收获(harvesting)”任务上;它能理解更长、更复杂的多步骤指令;它能在从未训练过的游戏(如ASKA、MineDojo、《Valheim》、《No Man’s Sky》等商业开放世界游戏)中完成探索、建造、收集等行为。SIMA 2在没有任何预先训练的情况下,应对了一款全新的游戏,展现出令人印象深刻的进步。

SIMA 2还能识别并执行包含文本、图像或符号的混合指令。例如,它可以综合处理文本指令“Build a bridge across the river.”、一张桥梁的截图图像以及🏠或🌲作为建造或资源指示符的表情符号,将不同模态信号综合为统一任务计划。

DeepMind还将SIMA 2接入了另一个模型——Genie 3,一个能根据文字或图像实时生成3D世界的模型。他们让SIMA 2进入这些从未存在过的虚拟世界中玩耍和探索。结果显示:它能理解环境结构;解析目标;规划合理路径;并自主完成任务。这被研究者称为“在生成的世界中也能立刻行动”,换句话说,它能在全新世界中“自然地学会生存”。

SIMA 2最令人瞩目的特性是它能自学变强。在训练中,它经历了以下循环:Gemini提供初始任务与奖励估计;SIMA 2执行任务、记录经验;系统将这些自生成数据用于再训练下一代模型;新版本更强,再生成更多经验;循环往复,持续进化。这意味着SIMA 2经过多代训练后,在完全没有人类反馈或游戏数据的情况下,实现了自我改进。这一机制被称为“自我提升”。

DeepMind强调,SIMA 2的意义远超“游戏AI”,它代表着迈向“具身通用智能(Embodied AGI)”的重要一步,因为真实世界本质上就是一个复杂、多任务、动态交互的3D环境。

相关新闻

技术

Google发布Antigravity平台:AI智能体主导软件开发,深度集成Gemini 3模型

Google正式推出Google Antigravity平台,这是一个面向“AI智能体主导开发”的全新系统。它不再是传统IDE,而是具备自治能力的智能体协作平台,使AI能够独立规划、执行和验证完整的软件开发任务。Antigravity深度集成Gemini 3模型,是Google在“智能体式编码”方向的关键落地产品,旨在解决传统AI辅助工具的局限性,实现AI跨环境工作、规划复杂任务、自动执行操作并自行检查结果,从而重新定义AI时代的开发方式。

技术

Google推出Generative UI:AI从“语言输出”迈向“交互体验生成”新范式

Google Research宣布推出Generative UI(生成式界面)技术,使AI模型能根据用户提示即时生成完整的可视化、交互式用户界面,如网页、工具、游戏和应用程序。这项技术已集成至Gemini App的“动态视图”和Google Search的AI Mode中,标志着Google将生成式AI从单纯的语言输出扩展到交互体验生成。Generative UI旨在解决传统AI线性文本输出在呈现复杂知识和交互任务时的局限性,通过AI系统即时设计并实现交互式界面。其核心机制包括工具访问、系统级指令集和输出后处理,确保AI能生成可运行、结构清晰且安全的界面。该技术有望推动人机交互范式转型,使未来的界面根据用户需求由AI即时生成。

技术

谷歌DeepMind发布SIMA2:通用智能体在复杂3D虚拟世界中性能显著提升

谷歌DeepMind近日推出SIMA2,一款基于Gemini模型的通用智能体,旨在提升其在复杂3D游戏世界中的表现。SIMA2整合了Gemini2.5Flash Lite作为核心推理引擎,使其不仅能执行指令,还能与玩家互动,并能解释意图、回答问题。相比前身SIMA1的31%任务完成率,SIMA2的任务完成率已提升至62%,接近人类玩家的71%。该智能体还扩展了指令渠道,支持文本、语音、图形和表情符号,并通过自我改进机制在无需额外人类演示的情况下学习新任务。SIMA2与Genie3结合,展示了在全新3D环境中识别物体和完成任务的能力,标志着通用智能体向现实世界机器人迈进的重要一步。