Workflow
链式思考(Chain-of-Thought
icon
搜索文档
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:50
大模型推理优化技术R-KV 核心观点 - 推出R-KV技术解决大模型推理冗余问题 通过实时token排序和动态压缩 实现显存降低90% 吞吐提升6.6倍 准确率保持100% [1][2][3] - 技术突破在于边生成边压缩 结合重要性评分和冗余过滤 保留关键信息同时去除重复内容 [9][15] - 在数学基准测试中表现优异 如R1-Llama-8B模型在MATH-500准确率达34% 超过完整KV缓存效果 [17][19] 技术原理 - 采用三步走策略:冗余识别+重要性评估+动态淘汰 解决链式思考导致的推理长度膨胀问题 [5] - 通过多头注意力评估token贡献度 计算key向量余弦相似度识别冗余 按优先级调度KV配额 [9] - 可视化对比显示 R-KV保留跨段落关键信息如题目数值和最终答案 SnapKV则误删关键步骤 [13][14][15] 性能表现 - 显存节省显著:固定1024预算时节省87.5% 比例10%预算时节省90% [20] - 吞吐量提升:8K序列下最大批处理479时达3809 tok/s 16K序列下最大批处理402时达3188 tok/s [20] - 计算开销可控 注意力成本降低抵消评分消耗 长序列场景优势更明显 [20][21] 应用场景 - 边端设备长链推理 使消费级GPU和手机NPU可运行大模型 [22] - 支持多轮Agent复杂流程 如反思-重写-自评 突破显存限制 [22] - 即插即用特性 可加速强化学习采样过程 无需额外训练 [22] 基准测试数据 - DeepSeek-R1-Llama-8B处理AIME数学题时 原生生成3.2万token 显存占用达4.1GB [6] - R1-Qwen-14B在AIME24测试准确率25% 较基线提升显著 [19] - 16K序列下采用10%比例预算 实现90%显存节省同时维持271最大批处理量 [20]
AI转向”推理模型和Agent时代“,对AI交易意味着什么?
硬AI· 2025-03-10 18:32
行业趋势转变 - AI行业正经历从传统大模型向推理模型和Agent的转变 强调"巧"而非"大" [2][4] - 模型进化方向从死记硬背转向链式思考(CoT) 实现多步验证和精准输出 [5] - 应用范式从聊天机器人升级为能执行任务的Agent 覆盖客户服务 金融分析等场景 [7] 技术路径分化 - 两种发展情景:Chinchilla缩放持续有效则2028年模型达65万亿参数 或预训练停滞转向推理优化 [10][11] - 推理模型代表如OpenAI的o1/o3和DeepSeek R1 已展现更高基准测试成绩及成本优势 [5] - 算力需求结构变化:推理计算占比将超50% 2028年推理算力缺口达2500亿exaFLOPS [13] 产业链影响 - 芯片需求从通用训练芯片转向定制推理芯片 网络设备商持续受益 [9][18] - 开源模型(Llama/DeepSeek)发展迅速 但微调成本仅为大模型训练的小部分 [15][16] - 科技巨头自由现金流可能改善 因推理成本下降减少资本支出压力 [19] 投资逻辑重构 - 缩放定律有效时优先布局芯片/设备供应商 警惕高资本支出科技企业 [1][18] - 预训练停滞则关注科技巨头现金流回升及用户基数大的应用类公司 [1][19] - ChatGPT两月新增1亿用户显示Agent应用爆发潜力 [7]