返回列表
技术AI创新性能优化

研究团队实现LLM推理速度3倍提升:无需额外模型,仅通过权重优化

马里兰大学、劳伦斯利弗莫尔国家实验室、哥伦比亚大学和TogetherAI的联合团队开发出一种新方法,无需投机解码或额外基础设施,即可将大型语言模型(LLM)的推理吞吐量提升3倍。该方法通过在模型现有架构中添加一个特殊token,直接将性能增益“烘焙”到模型权重中。这解决了传统逐token预测在处理长推理链时导致的成本和延迟问题,尤其是在代理AI工作流中,旨在显著降低单用户查询的延迟。

VentureBeat

随着代理AI工作流中长推理链的成本和延迟倍增,来自马里兰大学、劳伦斯利弗莫尔国家实验室、哥伦比亚大学和TogetherAI的一个团队,找到了一种直接将3倍吞吐量增益“烘焙”到模型权重中的方法。与需要单独草稿模型的投机解码不同,这种方法不需要任何额外的基础设施,只需在模型现有架构中添加一个特殊的token。逐token预测的局限性在于,它每次前向传播只能生成一个token,这在模型需要生成数千个token时会变得非常昂贵。这种瓶颈在推理模型中尤为突出,因为这些模型经常在生成最终响应之前产生数千个“思维链”token,导致用户体验缓慢且昂贵。

多token预测(MTP)提供了一种替代的训练范式,允许语言模型在单次前向传播中同时生成多个token。例如,模型可以被训练成一次性预测一个token块,而不仅仅是紧随其后的下一个token。该论文的合著者、马里兰大学计算机科学博士生John Kirchenbauer告诉VentureBeat,随着我们转向代理工作流,关注点正从整体吞吐量转向单用户速度。Kirchenbauer表示:“如今,超长思维轨迹已成为常态,代理外部循环进一步倍增了这些成本,延迟正变得与每硬件单元每秒总token数(tps/GPU)一样重要,成为整体服务效率的一个维度。”他指出,虽然标准的批量逐token预测在整体吞吐量方面已达到最优,但新方法“致力于仅用单个用户的查询来饱和GPU,以降低该单个用户的延迟。”

相关新闻