长上下文推理

搜索文档
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 22:07
| 机器之心报道 | | --- | | 机器之心编辑部 | 普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的 内存区域中。 KV 缓存是模型进行快速推理的基石,但它的大小会随着输入文本的长度线性增长。例如,使用 Llama-3-70B 模型处理一个长度为 128K token 的提示 (这大约相当于 Llama 3 技术报告本身的长度),就需要分配高达 42GB 的内存专门用于存储 KV 缓存。 许多先前的工作意识到了这个问题,并提出了从内存中丢弃(驱逐)部分键值对的方法,以实现所谓的「稀疏注意力」。然而,在一个公平的环境下对它们 进行横向比较却异常困难。 生成过程 = 预填充(对输入进行前向传播并保存键值对)+ 后填充(一次解码一个输出词元)。 有些论文旨在加速预填充阶段;另一些则忽略该阶段,转而致力于最小化后填充阶段的内存开销。同样,有的研究侧 ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B
机器之心· 2025-05-27 17:54
长上下文推理强化学习范式 - 核心观点:长上下文推理强化学习需要模型先定位外部关键信息再整合内部推理,区别于短上下文的直接内部知识推理[5] - 关键挑战:训练效率低(奖励收敛慢、输出熵降低限制探索)和优化不稳定(KL散度突刺多、输出长度不均导致方差大)[6] QwenLong-L1框架技术突破 - **渐进式上下文扩展技术**:分两阶段强化学习(20K→60K输入长度),结合课程引导分阶段训练、难度感知回顾采样和监督微调预热[11][12][13] - **混合奖励机制**:融合规则验证(严格匹配答案格式)与模型评判(Qwen2.5-1.5B评估语义等价性),取最大值平衡精确性与多样性[14][15][16][17] 模型性能表现 - **QwenLong-L1-14B**:平均Pass@1达68.3,超越Gemini-2.0-Flash-Thinking和Qwen3-32B[21] - **QwenLong-L1-32B**:平均Pass@1达70.7,超越OpenAI-o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking持平[9][21] - **训练效率**:仅需1.6K样本即实现显著提升,32B模型RL后平均性能提升5.1[20] 关键实验发现 - **SFT与RL协同效应**:SFT低成本达到基础性能,RL对最优结果至关重要;过度SFT会导致局部最优限制RL潜力[28] - **推理模式动态**:RL自然提升长上下文相关Grounding等推理模式频率,且频率增长与性能正相关[25][28]