返回列表
研究AI机器学习创新

麻省理工学院新微调方法SDFT:LLM在学习新技能时不再遗忘旧知识

麻省理工学院、Improbable AI Lab和苏黎世联邦理工学院的研究人员开发了一种名为“自蒸馏微调”(SDFT)的新技术,旨在解决大型语言模型(LLM)在学习新任务时遗忘原有能力的问题。该方法利用LLM的上下文学习能力,使其能直接从演示和自身实验中学习,且实验表明其性能优于传统的监督微调。SDFT使企业能够用单一模型积累多项技能,避免性能退化,从而为构建适应动态商业环境的AI代理提供了可能,无需昂贵的再训练或牺牲通用推理能力。

VentureBeat

当企业对大型语言模型(LLM)进行微调以适应新任务时,常常面临模型遗忘原有知识的风险,这迫使公司为每项技能维护独立的模型。为了解决这一挑战,麻省理工学院、Improbable AI Lab和苏黎世联邦理工学院的研究人员共同开发了一种创新技术,使LLM能够在学习新技能和知识的同时,不丧失其既有的能力。

这项技术被称为“自蒸馏微调”(Self-Distillation Fine-Tuning, SDFT)。SDFT利用现代LLM固有的上下文学习能力,允许模型直接从演示和自身的实验中进行学习。实验结果表明,SDFT在性能上持续优于传统的监督微调(SFT),并有效解决了强化学习算法的局限性。

对于企业应用而言,SDFT方法使得单一模型能够随着时间的推移积累多项技能,而不会在早期任务上出现性能退化。这为构建能够适应动态商业环境的AI代理提供了一条潜在途径,使其能够根据需要获取新的专有知识和技能,而无需进行昂贵的再训练周期,也不会失去其通用的推理能力。

持续学习的挑战在于,一旦LLM经过训练并部署,它通常保持静态,不会更新其参数以获取新技能、内化新知识或从经验中改进。要构建真正自适应的AI,行业需要解决“持续学习”问题,使系统能够像人类在其职业生涯中那样积累知识。

模型最有效的学习方式之一是“在策略学习”(on-policy learning)。在这种方法中,模型从自身生成的数据中学习,从而能够纠正自身的错误和推理过程。这与仅仅模仿静态数据集的学习方式形成对比。如果没有在策略学习,模型容易遭受“灾难性遗忘”,即学习新任务会导致模型失去其过去的知识和能力。

相关新闻