KV缓存

搜索文档
来自 Manus 的一手分享:如何构建 AI Agent 的上下文工程?
Founder Park· 2025-07-19 02:51
技术路线选择 - 公司选择基于上下文工程而非端到端模型训练,实现几小时内发布改进而非数周迭代[3] - 历史教训显示自研模型易被前沿技术颠覆,如GPT-3与Flan-T5使早期开放信息抽取模型失效[3] - 采用"随机梯度下降"方法四次重构智能体框架,通过手动架构搜索优化上下文塑造[4] KV缓存优化 - KV缓存命中率是核心指标,Claude Sonnet缓存/未缓存的token成本相差10倍(0.3 vs 3美元/百万token)[6][7] - 智能体输入输出token比例达100:1,需保持提示前缀稳定、上下文追加式更新、标记缓存断点提升效率[6][11] - 动态增删工具会破坏KV缓存,应通过上下文感知状态机屏蔽logits而非移除工具[10][12] 上下文管理策略 - 将文件系统作为外化记忆,支持按需读写解决128K上下文窗口限制,保留URL/路径实现可还原压缩[17][19][23] - 通过复述机制(如todo.md文件)操控模型注意力,50次工具调用任务中避免目标偏离[24][27] - 保留错误内容可提升智能体适应性,失败行动记录能降低重复错误概率[28][31] 提示工程实践 - 少样本提示需引入结构化变化防止模式固化,动作/观察序列采用不同模板打破重复性[32] - 函数调用支持Auto/Required/Specified三种模式,通过统一工具前缀实现状态无关约束[15][20] - 上下文工程决定智能体行为边界,需平衡模型原生能力与环境反馈[33][34]
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:50
大模型推理优化技术R-KV 核心观点 - 推出R-KV技术解决大模型推理冗余问题 通过实时token排序和动态压缩 实现显存降低90% 吞吐提升6.6倍 准确率保持100% [1][2][3] - 技术突破在于边生成边压缩 结合重要性评分和冗余过滤 保留关键信息同时去除重复内容 [9][15] - 在数学基准测试中表现优异 如R1-Llama-8B模型在MATH-500准确率达34% 超过完整KV缓存效果 [17][19] 技术原理 - 采用三步走策略:冗余识别+重要性评估+动态淘汰 解决链式思考导致的推理长度膨胀问题 [5] - 通过多头注意力评估token贡献度 计算key向量余弦相似度识别冗余 按优先级调度KV配额 [9] - 可视化对比显示 R-KV保留跨段落关键信息如题目数值和最终答案 SnapKV则误删关键步骤 [13][14][15] 性能表现 - 显存节省显著:固定1024预算时节省87.5% 比例10%预算时节省90% [20] - 吞吐量提升:8K序列下最大批处理479时达3809 tok/s 16K序列下最大批处理402时达3188 tok/s [20] - 计算开销可控 注意力成本降低抵消评分消耗 长序列场景优势更明显 [20][21] 应用场景 - 边端设备长链推理 使消费级GPU和手机NPU可运行大模型 [22] - 支持多轮Agent复杂流程 如反思-重写-自评 突破显存限制 [22] - 即插即用特性 可加速强化学习采样过程 无需额外训练 [22] 基准测试数据 - DeepSeek-R1-Llama-8B处理AIME数学题时 原生生成3.2万token 显存占用达4.1GB [6] - R1-Qwen-14B在AIME24测试准确率25% 较基线提升显著 [19] - 16K序列下采用10%比例预算 实现90%显存节省同时维持271最大批处理量 [20]
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:49
大模型推理优化技术R-KV - 核心观点:R-KV是一种通过实时压缩KV缓存解决大模型推理冗余问题的高效方法,显著降低显存占用并提升吞吐量,同时保持100%准确率 [1][2][3] 技术原理 - 采用三步流程:冗余识别+重要性评估+动态淘汰,通过链式思考(CoT)优化推理路径 [5] - 实时对token进行排序,保留信息丰富且多样化的token,阻断显存膨胀 [7][9] - 结合多头注意力评估贡献度(重要性打分)和余弦相似度检测重复内容(冗余打分),按优先级动态调度KV配额 [9] 性能优势 - 显存降低90%,吞吐量提升6.6倍,准确率保持100% [1] - 在DeepSeek-R1-Llama-8B模型中,解决AIME数学题时KV缓存从4.1GB大幅压缩 [6] - 相比SnapKV等现有方法,R-KV覆盖范围更广(保留题目关键词、中间值及最终答案),避免误删关键信息 [13][14][15] 基准测试结果 - 数学任务表现:R1-Llama-8B在MATH-500准确率34%,R1-Qwen-14B在AIME24准确率25%,均超越基线 [19] - 16K序列长度下,固定1024预算时显存节省93.75%,最大批处理402次,吞吐量达3188.82 tok/s [20] - 比例压缩模式下(10%预算),8K序列吞吐量达3809.15 tok/s,显存节省90% [20] 应用场景 - 边端设备长链推理:消费级GPU甚至手机NPU可运行 [22] - 多轮Agent复杂流程:如反思-重写-自评,突破显存限制 [22] - 强化学习加速:training-free方法即插即用 [22] 技术实现细节 - 可视化对比显示R-KV能跨段保留关键信息,而SnapKV聚焦局部片段导致重复 [12][13][14] - 计算开销被注意力成本降低抵消,序列越长收益越显著 [20][21] - 主要吞吐提升源于支持更大批处理规模,而非直接速度优化 [21]