返回列表
技术AI创新机器学习

谷歌推出新型AI训练方法SRL:赋能小型模型处理复杂多步推理任务

谷歌云和加州大学洛杉矶分校(UCLA)的研究人员提出了一种名为“监督强化学习”(SRL)的新型强化学习框架。该框架通过将问题解决重构为一系列逻辑“动作”,在训练过程中提供丰富的学习信号,显著提升了语言模型学习复杂多步推理任务的能力。实验表明,SRL不仅在数学推理基准测试中表现出色,还能有效泛化到代理软件工程任务。与现有依赖最终答案正确性的强化学习方法(RLVR)相比,SRL能让更小、成本更低的模型达到更高的推理水平,解决了传统方法在处理极具挑战性问题时因稀疏奖励和计算成本导致的学习瓶颈。

VentureBeat

谷歌云和加州大学洛杉矶分校(UCLA)的研究人员共同提出了一种名为“监督强化学习”(SRL)的新型强化学习框架,旨在显著提升语言模型学习极具挑战性的多步推理任务的能力。SRL方法将问题解决过程重新定义为一系列逻辑“动作”,从而在训练过程中提供了丰富的学习信号。这种新方法使得小型模型也能够学习并解决此前对于其他常见训练技术而言遥不可及的复杂问题。

实验结果显示,SRL不仅在数学推理基准测试中表现出色,而且能够有效地泛化到代理软件工程任务。SRL被认为是一个多功能的训练框架,能够将更小、成本更低的模型提升到更高的推理能力水平。

当前大型语言模型(LLM)在推理训练方面的进展,很大程度上是由“可验证奖励强化学习”(RLVR)推动的。RLVR是一种根据模型最终答案的正确性来给予奖励的方法。通过反复尝试解决问题并获得最终结果的反馈,模型逐渐学习有效的解决策略。然而,这种基于结果的方法的成功,取决于模型在有限的尝试次数(即“rollouts”)内发现正确解决方案的能力。由于每次rollout都计算成本高昂,模型无法无限次尝试。当问题难度极高,以至于模型在预算范围内很少或根本无法找到正确答案时,这种方法就会遇到瓶颈。

这造成了一个关键的学习瓶颈。在许多多步推理问题中,模型可能正确解决了多个步骤,但由于一个单一的错误而偏离轨道,导致最终答案不正确。在RLVR方法中,这种付出全部努力都会得到负面奖励,模型无法从其部分正确的工作中学习到任何东西。这是一种“全有或全无”的方法,未能提供细粒度的反馈,并导致奖励稀疏。

相关新闻

技术

Google发布Antigravity平台:AI智能体主导软件开发,深度集成Gemini 3模型

Google正式推出Google Antigravity平台,这是一个面向“AI智能体主导开发”的全新系统。它不再是传统IDE,而是具备自治能力的智能体协作平台,使AI能够独立规划、执行和验证完整的软件开发任务。Antigravity深度集成Gemini 3模型,是Google在“智能体式编码”方向的关键落地产品,旨在解决传统AI辅助工具的局限性,实现AI跨环境工作、规划复杂任务、自动执行操作并自行检查结果,从而重新定义AI时代的开发方式。

技术

Google推出Generative UI:AI从“语言输出”迈向“交互体验生成”新范式

Google Research宣布推出Generative UI(生成式界面)技术,使AI模型能根据用户提示即时生成完整的可视化、交互式用户界面,如网页、工具、游戏和应用程序。这项技术已集成至Gemini App的“动态视图”和Google Search的AI Mode中,标志着Google将生成式AI从单纯的语言输出扩展到交互体验生成。Generative UI旨在解决传统AI线性文本输出在呈现复杂知识和交互任务时的局限性,通过AI系统即时设计并实现交互式界面。其核心机制包括工具访问、系统级指令集和输出后处理,确保AI能生成可运行、结构清晰且安全的界面。该技术有望推动人机交互范式转型,使未来的界面根据用户需求由AI即时生成。

技术

谷歌DeepMind发布SIMA2:通用智能体在复杂3D虚拟世界中性能显著提升

谷歌DeepMind近日推出SIMA2,一款基于Gemini模型的通用智能体,旨在提升其在复杂3D游戏世界中的表现。SIMA2整合了Gemini2.5Flash Lite作为核心推理引擎,使其不仅能执行指令,还能与玩家互动,并能解释意图、回答问题。相比前身SIMA1的31%任务完成率,SIMA2的任务完成率已提升至62%,接近人类玩家的71%。该智能体还扩展了指令渠道,支持文本、语音、图形和表情符号,并通过自我改进机制在无需额外人类演示的情况下学习新任务。SIMA2与Genie3结合,展示了在全新3D环境中识别物体和完成任务的能力,标志着通用智能体向现实世界机器人迈进的重要一步。