Overclocking LLM Reasoning

搜索文档
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
量子位· 2025-07-07 14:13
核心观点 - 特拉维夫大学研究团队开发出监控和控制LLM思考路径长度的新方法 通过"思维进度向量"(TPV)实现推理过程的动态调节 包括超频加速和降频减速 [1][4] - 该方法使模型token使用量减少近6倍 同时保持答案准确性 在Math-500和GSM-8K测试中最高提速6倍且准确率不降反升 [3][18][19] - TPV技术可与现有提示策略互补结合 混合方法平均提升66%性能 最高提升285% 相对于基础模型平均提升223% [23][24] 技术原理 - **进度跟踪机制**:LLM通过隐藏状态动态编码推理进度信息 研究团队从最终隐藏层提取"思维进度向量"量化推理阶段相对位置 [6][7][8] - **干预方法**:通过调整α参数修改隐藏表示 正α值实现超频加速(减少不必要推理步骤) 负α值实现降频减速 [16][17] - **可视化实现**:采用指数平滑和序列模型预测相对位置序列 生成可视化进度条 经测试预测误差低于0.1 [11][14][15] 实验效果 - **效率提升**:DeepSeek-R1模型token使用量减少6倍 GSM8K数据集计算量减少30% 思考序列长度显著缩短 [3][18][28] - **准确性表现**:在256-512token低计算预算下 正确答案增加80% 错误率保持不变 更高预算下保持相同趋势 [21][22] - **参数影响**:α值从5增至100持续提升效果 与指令提示结合时最佳性能提升达1416% [20][23][29] 应用验证 - **跨场景适应性**:TPV在不同指令策略和推理序列长度下保持有效 测试损失始终低于0.1 显示强鲁棒性 [32][33] - **模型兼容性**:已验证适用于DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B等显式结构化推理模型 [8][19]