Retrieval Attention

搜索文档

36氪· 2025-11-17 16:02

技术核心与创新点 - 提出一种免训练、用于超长上下文推理的动态稀疏注意力方案Retrieval Attention，核心观点是每个Query实际上只需要和一小部分Key进行强交互即可，注意力本身是天然稀疏的[1][3] - 核心创新在于将向量检索机制引入注意力计算路径，通过近似最近邻检索找出对当前Query最相关的少量Key（如只找前1%），实现真正意义上的动态稀疏化[3][7] - 在系统架构上提出CPU-GPU协同的双路注意力机制：GPU负责保留少量"可预测"的局部KV缓存，而CPU以检索方式动态调用大规模KV存储，两路计算独立并行，最终融合结果[7][22] - 整个机制无需对模型进行重新训练，以可插拔模块形式接入现有Transformer，仅修改注意力层的前向逻辑，即可在不牺牲精度的前提下显著加速长上下文推理[8] 性能表现与基准测试 - 实测在RTX4090（24GB）上，8B级模型可在128K上下文下稳定生成，每token耗时约0.188秒，且与全注意力精度几乎一致[5] - 后续工作RetroInfer在A100 GPU上相比于全注意力实现了4.5倍的解码吞吐，并在1M token上下文时相比于其它GPU-CPU稀疏注意力系统实现了10.5倍的吞吐[5] - 在128K上下文长度下，Retrieval Attention的每token延迟为0.188秒，显著优于Full attention的43.927秒，且在不同上下文长度下延迟增长平缓[6] - 该方法通过极低的扫描比例（约1–3%）实现高召回率，使显存占用降至原来的约1/10，同时几乎不损失精度[7][22] 研究背景与设计思路 - 研究思路源于数据库管理系统与机器学习在底层资源有限情况下高效组织信息的共通问题，将传统数据库的"检索"逻辑迁移到模型层面[9][11] - 核心是将数据库中成熟的向量检索方法移植到语言模型推理过程中，让模型在生成时只访问"最相关"的信息，通过系统层设计让模型更高效利用已有记忆[11][14] - 将注意力机制理解为动态的信息检索系统，模型每生成一个新token都需要在已有语义空间里"查询"最相关信息，这与数据库执行查询请求的过程相似[18][19] - 研究目标是让模型的注意力机制变得更像一个"可控的数据库"，使模型能主动查询、筛选、调用真正需要的信息，而非被动遍历全部上下文[20][21] 行业影响与未来方向 - 该项研究让模型具备了真正的"长时记忆"能力，使其能在极大范围内保持语义一致性，从"局部理解者"转变为"系统性推理者"[30][31] - 未来大模型推理框架不应再是"GPU-only"，而应是一种充分利用CPU内存优势的混合架构，让更便宜、更可扩展的系统也能实现接近主流GPU集群的性能[28] - 长期看可能会推动重新理解"知识"的组织方式，未来可能出现具备自主知识管理能力的AI系统，能长期保留信息、持续学习，实现真正的可扩展性[32] - 动态注意力与系统优化未来可能会融合，形成一种既能主动学习、又能自我管理"记忆"的新型注意力体系[29]