MIT新KV缓存压缩技术“注意力匹配”:LLM内存效率提升50倍,不损精度
麻省理工学院研究人员开发了一种名为“注意力匹配”(Attention Matching)的新技术,旨在解决大型语言模型(LLM)在处理长上下文时面临的严重KV缓存内存瓶颈。该技术能够将上下文压缩高达50倍,同时保持极低的质量损失。KV缓存是模型存储工作记忆的关键区域,随着对话长度增加,其内存消耗急剧上升,成为企业级AI应用(如分析大型文档或多会话对话)的主要瓶颈。尽管存在其他内存压缩技术,但“注意力匹配”因其执行速度和卓越的信息保留能力而脱颖而出。
处理大型文档或长周期任务的企业级AI应用面临着严重的内存瓶颈。随着上下文的增长,模型工作记忆存储区域——KV缓存也随之增大。麻省理工学院的研究人员开发了一种新颖的技术,通过一种快速压缩方法来解决KV缓存的这一挑战。这项名为“注意力匹配”(Attention Matching)的技术,能够将上下文压缩高达50倍,且质量损失极小。
尽管市面上存在其他内存压缩技术,“注意力匹配”因其执行速度和卓越的信息保留能力而脱颖而出。
KV缓存的内存瓶颈:
大型语言模型(LLM)以逐个token的方式顺序生成响应。为了避免每次预测单词时都从头开始重新计算整个对话历史,模型会存储其已处理的每个先前token的数学表示,即所谓的键值对(key and value pairs)。这种关键的工作记忆被称为KV缓存。
KV缓存的规模随对话长度而变化,因为模型被迫保留给定交互中所有先前token的键和值。这会消耗昂贵的硬件资源。论文合著者Adam Zweiger向VentureBeat表示:“实际上,KV缓存内存是服务超长上下文模型最大的瓶颈。它限制了并发性,强制使用更小的批次,和/或需要更积极的卸载。”在现代企业用例中,例如分析大量的法律合同、维护多会话客户对话或运行自主编码代理,KV缓存可能会为一个用户请求膨胀到数千兆字节的内存。
为了解决这个巨大的瓶颈,AI行业尝试了几种策略,但这些方法在需要极端压缩的企业环境中部署时效果不佳。一类技术修复包括通过逐出模型中的token来优化KV缓存。