谷歌推出新型AI训练方法SRL:赋能小型模型处理复杂多步推理任务
谷歌云和加州大学洛杉矶分校(UCLA)的研究人员提出了一种名为“监督强化学习”(SRL)的新型强化学习框架。该框架通过将问题解决重构为一系列逻辑“动作”,在训练过程中提供丰富的学习信号,显著提升了语言模型学习复杂多步推理任务的能力。实验表明,SRL不仅在数学推理基准测试中表现出色,还能有效泛化到代理软件工程任务。与现有依赖最终答案正确性的强化学习方法(RLVR)相比,SRL能让更小、成本更低的模型达到更高的推理水平,解决了传统方法在处理极具挑战性问题时因稀疏奖励和计算成本导致的学习瓶颈。
谷歌云和加州大学洛杉矶分校(UCLA)的研究人员共同提出了一种名为“监督强化学习”(SRL)的新型强化学习框架,旨在显著提升语言模型学习极具挑战性的多步推理任务的能力。SRL方法将问题解决过程重新定义为一系列逻辑“动作”,从而在训练过程中提供了丰富的学习信号。这种新方法使得小型模型也能够学习并解决此前对于其他常见训练技术而言遥不可及的复杂问题。
实验结果显示,SRL不仅在数学推理基准测试中表现出色,而且能够有效地泛化到代理软件工程任务。SRL被认为是一个多功能的训练框架,能够将更小、成本更低的模型提升到更高的推理能力水平。
当前大型语言模型(LLM)在推理训练方面的进展,很大程度上是由“可验证奖励强化学习”(RLVR)推动的。RLVR是一种根据模型最终答案的正确性来给予奖励的方法。通过反复尝试解决问题并获得最终结果的反馈,模型逐渐学习有效的解决策略。然而,这种基于结果的方法的成功,取决于模型在有限的尝试次数(即“rollouts”)内发现正确解决方案的能力。由于每次rollout都计算成本高昂,模型无法无限次尝试。当问题难度极高,以至于模型在预算范围内很少或根本无法找到正确答案时,这种方法就会遇到瓶颈。
这造成了一个关键的学习瓶颈。在许多多步推理问题中,模型可能正确解决了多个步骤,但由于一个单一的错误而偏离轨道,导致最终答案不正确。在RLVR方法中,这种付出全部努力都会得到负面奖励,模型无法从其部分正确的工作中学习到任何东西。这是一种“全有或全无”的方法,未能提供细粒度的反馈,并导致奖励稀疏。