MIT新KV缓存压缩技术：LLM内存效率提升50倍，不损精度

MIT新KV缓存压缩技术“注意力匹配”：LLM内存效率提升50倍，不损精度

麻省理工学院研究人员开发了一种名为“注意力匹配”（Attention Matching）的新技术，旨在解决大型语言模型（LLM）在处理长上下文时面临的严重KV缓存内存瓶颈。该技术能够将上下文压缩高达50倍，同时保持极低的质量损失。KV缓存是模型存储工作记忆的关键区域，随着对话长度增加，其内存消耗急剧上升，成为企业级AI应用（如分析大型文档或多会话对话）的主要瓶颈。尽管存在其他内存压缩技术，但“注意力匹配”因其执行速度和卓越的信息保留能力而脱颖而出。

2026年3月6日 21:00

VentureBeat

处理大型文档或长周期任务的企业级AI应用面临着严重的内存瓶颈。随着上下文的增长，模型工作记忆存储区域——KV缓存也随之增大。麻省理工学院的研究人员开发了一种新颖的技术，通过一种快速压缩方法来解决KV缓存的这一挑战。这项名为“注意力匹配”（Attention Matching）的技术，能够将上下文压缩高达50倍，且质量损失极小。

尽管市面上存在其他内存压缩技术，“注意力匹配”因其执行速度和卓越的信息保留能力而脱颖而出。

KV缓存的内存瓶颈：

大型语言模型（LLM）以逐个token的方式顺序生成响应。为了避免每次预测单词时都从头开始重新计算整个对话历史，模型会存储其已处理的每个先前token的数学表示，即所谓的键值对（key and value pairs）。这种关键的工作记忆被称为KV缓存。

KV缓存的规模随对话长度而变化，因为模型被迫保留给定交互中所有先前token的键和值。这会消耗昂贵的硬件资源。论文合著者Adam Zweiger向VentureBeat表示：“实际上，KV缓存内存是服务超长上下文模型最大的瓶颈。它限制了并发性，强制使用更小的批次，和/或需要更积极的卸载。”在现代企业用例中，例如分析大量的法律合同、维护多会话客户对话或运行自主编码代理，KV缓存可能会为一个用户请求膨胀到数千兆字节的内存。

为了解决这个巨大的瓶颈，AI行业尝试了几种策略，但这些方法在需要极端压缩的企业环境中部署时效果不佳。一类技术修复包括通过逐出模型中的token来优化KV缓存。

MIT新KV缓存压缩技术“注意力匹配”：LLM内存效率提升50倍，不损精度

相关新闻

MiroFish：简洁通用的群体智能引擎，赋能万物预测

N.O.M.A.D项目：自给自足的离线生存计算机，集成AI与关键工具

LLM赋能软件开发：作者分享低缺陷率编程工作流与系统架构新重点