返回列表
技术AI创新科技

谷歌DeepMind发布SIMA2:通用智能体在复杂3D虚拟世界中性能显著提升

谷歌DeepMind近日推出SIMA2,一款基于Gemini模型的通用智能体,旨在提升其在复杂3D游戏世界中的表现。SIMA2整合了Gemini2.5Flash Lite作为核心推理引擎,使其不仅能执行指令,还能与玩家互动,并能解释意图、回答问题。相比前身SIMA1的31%任务完成率,SIMA2的任务完成率已提升至62%,接近人类玩家的71%。该智能体还扩展了指令渠道,支持文本、语音、图形和表情符号,并通过自我改进机制在无需额外人类演示的情况下学习新任务。SIMA2与Genie3结合,展示了在全新3D环境中识别物体和完成任务的能力,标志着通用智能体向现实世界机器人迈进的重要一步。

AI新闻资讯 - AI Base

谷歌DeepMind近期发布了SIMA2,旨在测试通用智能体在复杂3D游戏世界中的性能。SIMA2(可扩展可指令多世界智能体)在原有基础上进行了升级,采用了Gemini模型,使其能够更好地理解目标、解释计划并通过自我学习在不同环境中不断进步。SIMA2的前身SIMA1于2024年问世,当时它通过渲染图像和虚拟键盘鼠标进行控制,学习了600多项语言指令,任务完成率约为31%,而人类玩家的完成率则高达71%。

SIMA2在保留相同界面的基础上,使用Gemini2.5Flash Lite作为核心推理引擎。这使得SIMA2不仅仅是指令执行者,更成为了与玩家互动的游戏伙伴。SIMA2的架构将Gemini整合为核心部分,通过接收视觉观察和用户指令,推导出高层目标并产生相应的操作。这种新的训练模式使得智能体能够解释自己的意图,回答有关当前目标的问题,并展示其对环境的推理过程。在DeepMind的评估中,SIMA2的任务完成率提升至62%,几乎达到了人类玩家的水平。

SIMA2还扩展了指令渠道,不仅能够理解文本指令,还能处理语音、图形甚至表情符号。在一项演示中,用户要求SIMA2找到“像熟透的番茄一样颜色的房子”,它能够推理出“熟透的番茄是红色的”,并顺利找到目标。自我改进也是SIMA2的一大亮点。在初期阶段使用人类的游戏演示后,智能体进入新游戏,完全依靠自己的经验进行学习。Gemini模型为智能体生成新任务并评分,这使得后续版本在许多之前失败的任务上也能成功,而无需额外的人类演示。

最后,DeepMind结合SIMA2与Genie3,通过单一图像或文本提示生成互动3D环境,展示了智能体在全新环境中如何识别物体并完成指定任务。这标志着一个通用智能体向更高级的现实世界机器人发展的重要一步。

相关新闻

技术

Google发布Antigravity平台:AI智能体主导软件开发,深度集成Gemini 3模型

Google正式推出Google Antigravity平台,这是一个面向“AI智能体主导开发”的全新系统。它不再是传统IDE,而是具备自治能力的智能体协作平台,使AI能够独立规划、执行和验证完整的软件开发任务。Antigravity深度集成Gemini 3模型,是Google在“智能体式编码”方向的关键落地产品,旨在解决传统AI辅助工具的局限性,实现AI跨环境工作、规划复杂任务、自动执行操作并自行检查结果,从而重新定义AI时代的开发方式。

技术

Google推出Generative UI:AI从“语言输出”迈向“交互体验生成”新范式

Google Research宣布推出Generative UI(生成式界面)技术,使AI模型能根据用户提示即时生成完整的可视化、交互式用户界面,如网页、工具、游戏和应用程序。这项技术已集成至Gemini App的“动态视图”和Google Search的AI Mode中,标志着Google将生成式AI从单纯的语言输出扩展到交互体验生成。Generative UI旨在解决传统AI线性文本输出在呈现复杂知识和交互任务时的局限性,通过AI系统即时设计并实现交互式界面。其核心机制包括工具访问、系统级指令集和输出后处理,确保AI能生成可运行、结构清晰且安全的界面。该技术有望推动人机交互范式转型,使未来的界面根据用户需求由AI即时生成。

技术

xAI发布Grok 4.1:情感智能与人格一致性显著提升,LMArena榜单居首

xAI正式发布Grok 4.1,旨在打造更自然、可信的对话伙伴,而非单纯的答题机器。新版本在创造力、情感智能、人格一致性和协作性四大维度实现质变,尤其强调理解细微意图和连贯的人格表现。Grok 4.1引入高阶推理模型作为奖励模型,实现AI训练AI,并首次提出“人格一致性”优化目标。性能评估显示,Grok 4.1在LMArena通用能力榜单中位居榜首,情感智能、创意写作表现优异,并显著降低了幻觉发生率。