返回列表
技术AI创新科技

谷歌DeepMind发布SIMA2:通用智能体在复杂3D虚拟世界中性能显著提升

谷歌DeepMind近日推出SIMA2,一款基于Gemini模型的通用智能体,旨在提升其在复杂3D游戏世界中的表现。SIMA2整合了Gemini2.5Flash Lite作为核心推理引擎,使其不仅能执行指令,还能与玩家互动,并能解释意图、回答问题。相比前身SIMA1的31%任务完成率,SIMA2的任务完成率已提升至62%,接近人类玩家的71%。该智能体还扩展了指令渠道,支持文本、语音、图形和表情符号,并通过自我改进机制在无需额外人类演示的情况下学习新任务。SIMA2与Genie3结合,展示了在全新3D环境中识别物体和完成任务的能力,标志着通用智能体向现实世界机器人迈进的重要一步。

AI新闻资讯 - AI Base

谷歌DeepMind近期发布了SIMA2,旨在测试通用智能体在复杂3D游戏世界中的性能。SIMA2(可扩展可指令多世界智能体)在原有基础上进行了升级,采用了Gemini模型,使其能够更好地理解目标、解释计划并通过自我学习在不同环境中不断进步。SIMA2的前身SIMA1于2024年问世,当时它通过渲染图像和虚拟键盘鼠标进行控制,学习了600多项语言指令,任务完成率约为31%,而人类玩家的完成率则高达71%。

SIMA2在保留相同界面的基础上,使用Gemini2.5Flash Lite作为核心推理引擎。这使得SIMA2不仅仅是指令执行者,更成为了与玩家互动的游戏伙伴。SIMA2的架构将Gemini整合为核心部分,通过接收视觉观察和用户指令,推导出高层目标并产生相应的操作。这种新的训练模式使得智能体能够解释自己的意图,回答有关当前目标的问题,并展示其对环境的推理过程。在DeepMind的评估中,SIMA2的任务完成率提升至62%,几乎达到了人类玩家的水平。

SIMA2还扩展了指令渠道,不仅能够理解文本指令,还能处理语音、图形甚至表情符号。在一项演示中,用户要求SIMA2找到“像熟透的番茄一样颜色的房子”,它能够推理出“熟透的番茄是红色的”,并顺利找到目标。自我改进也是SIMA2的一大亮点。在初期阶段使用人类的游戏演示后,智能体进入新游戏,完全依靠自己的经验进行学习。Gemini模型为智能体生成新任务并评分,这使得后续版本在许多之前失败的任务上也能成功,而无需额外的人类演示。

最后,DeepMind结合SIMA2与Genie3,通过单一图像或文本提示生成互动3D环境,展示了智能体在全新环境中如何识别物体并完成指定任务。这标志着一个通用智能体向更高级的现实世界机器人发展的重要一步。

相关新闻

技术

xAI发布Grok 4.1:情感智能与人格一致性显著提升,LMArena榜单居首

xAI正式发布Grok 4.1,旨在打造更自然、可信的对话伙伴,而非单纯的答题机器。新版本在创造力、情感智能、人格一致性和协作性四大维度实现质变,尤其强调理解细微意图和连贯的人格表现。Grok 4.1引入高阶推理模型作为奖励模型,实现AI训练AI,并首次提出“人格一致性”优化目标。性能评估显示,Grok 4.1在LMArena通用能力榜单中位居榜首,情感智能、创意写作表现优异,并显著降低了幻觉发生率。

技术

埃隆·马斯克暗示Grok 4展现“涌现智能”,成功优化爱迪生灯泡设计

埃隆·马斯克在社交媒体上发布消息,称“这只是Grok 4”。此前,Brian Roemmele分享了Grok分析1890年托马斯·爱迪生灯泡专利,并成功确定了更优灯丝设计并点亮灯泡的案例。Roemmele强调,这种“涌现智能”在其他AI模型中尚未发现,并认为其预示着不仅能改变教育,还能让机器人进行建造。

技术

DeepMind推出SIMA 2:Gemini赋能,实现虚拟3D世界中的具身推理与自我学习

DeepMind发布了第二代SIMA(Scalable Instructable Multiworld Agent)——SIMA 2,该智能体在Gemini大模型的加持下实现了显著升级。与第一代SIMA仅能执行指令不同,SIMA 2现在能够推理用户目标、解释其计划和思考过程、学习新的行为方式,并在多个虚拟世界中泛化经验。它通过屏幕级观察感知环境,不直接访问游戏引擎数据,从而增强了通用性。SIMA 2的训练结合了人类演示和AI自监督,展现出跨游戏泛化能力,甚至能在从未见过的游戏中完成任务。此外,它能理解多模态指令,并在Genie 3生成的虚拟世界中行动,甚至通过自我提升机制持续进化,标志着向具身通用智能迈出了重要一步。