LLM推理速度提升3倍：无需投机解码，直接优化模型权重

研究团队实现LLM推理速度3倍提升：无需额外模型，仅通过权重优化

马里兰大学、劳伦斯利弗莫尔国家实验室、哥伦比亚大学和TogetherAI的联合团队开发出一种新方法，无需投机解码或额外基础设施，即可将大型语言模型（LLM）的推理吞吐量提升3倍。该方法通过在模型现有架构中添加一个特殊token，直接将性能增益“烘焙”到模型权重中。这解决了传统逐token预测在处理长推理链时导致的成本和延迟问题，尤其是在代理AI工作流中，旨在显著降低单用户查询的延迟。

2026年2月23日 17:00

VentureBeat

随着代理AI工作流中长推理链的成本和延迟倍增，来自马里兰大学、劳伦斯利弗莫尔国家实验室、哥伦比亚大学和TogetherAI的一个团队，找到了一种直接将3倍吞吐量增益“烘焙”到模型权重中的方法。与需要单独草稿模型的投机解码不同，这种方法不需要任何额外的基础设施，只需在模型现有架构中添加一个特殊的token。逐token预测的局限性在于，它每次前向传播只能生成一个token，这在模型需要生成数千个token时会变得非常昂贵。这种瓶颈在推理模型中尤为突出，因为这些模型经常在生成最终响应之前产生数千个“思维链”token，导致用户体验缓慢且昂贵。

多token预测（MTP）提供了一种替代的训练范式，允许语言模型在单次前向传播中同时生成多个token。例如，模型可以被训练成一次性预测一个token块，而不仅仅是紧随其后的下一个token。该论文的合著者、马里兰大学计算机科学博士生John Kirchenbauer告诉VentureBeat，随着我们转向代理工作流，关注点正从整体吞吐量转向单用户速度。Kirchenbauer表示：“如今，超长思维轨迹已成为常态，代理外部循环进一步倍增了这些成本，延迟正变得与每硬件单元每秒总token数（tps/GPU）一样重要，成为整体服务效率的一个维度。”他指出，虽然标准的批量逐token预测在整体吞吐量方面已达到最优，但新方法“致力于仅用单个用户的查询来饱和GPU，以降低该单个用户的延迟。”

研究团队实现LLM推理速度3倍提升：无需额外模型，仅通过权重优化

相关新闻

MiroFish：简洁通用的群体智能引擎，赋能万物预测

N.O.M.A.D项目：自给自足的离线生存计算机，集成AI与关键工具

LLM赋能软件开发：作者分享低缺陷率编程工作流与系统架构新重点