顺序精炼(SR)
搜索文档
又一推理新范式:将LLM自身视作「改进操作符」,突破长思维链极限
机器之心· 2025-10-03 11:39
大语言模型推理方法创新 - 研究提出一种名为并行-蒸馏-精炼(PDR)的新型推理方法家族,该方法通过并行生成多样化草稿、蒸馏成有限文本工作区、并在此基础上精炼输出,从而在控制上下文长度的同时提升模型准确性[3] - 当PDR方法的并行度设置为1时,得到顺序精炼(SR)这一特例,即迭代改进单一候选答案,其表现优于长思维链,但代价是更高的延迟[3] - 在具有可验证答案的数学任务中,PDR方法带来显著提升,在AIME 2024和AIME 2025数学任务中准确率分别提高11%和9%[4] 模型作为改进操作符的框架 - 研究将大语言模型视为改进操作符,通过读写压缩循环实现迭代精炼:读取当前工作区、写出改进成果、压缩回有限工作区为下一步准备[6] - 框架在两种token预算下评估方法:顺序预算(延迟代理,沿接受路径的tokens)和总预算(计算成本代理,所有调用包括丢弃分支的tokens)[6] - 短上下文迭代精炼流程包括顺序精炼(SR)和并行-蒸馏-精炼(PDR),前者改进单一成果,后者每轮基于有限摘要采样并重新综合[7][9] 操作符一致性训练效果 - 研究训练了一个8B规模的思考模型,使用强化学习使其与PDR推理方法保持一致,通过优化模型在短上下文迭代接口下的表现确保训练与推理一致性[3][10] - 操作符一致性训练改变了帕累托前沿,PDR强化学习相比基准方法在AIME 2024上提升3.34个百分点,在AIME 2025上提升1.67个百分点[26] - 从基准强化学习检查点开始的持续更新带来更大提升,在AIME 2024和AIME 2025上分别提升5.00和4.59个百分点[26][27] 实验研究成果 - 在预算感知协议下,顺序精炼和并行-蒸馏-精炼操作符在匹配延迟情况下超越长思维链基准,例如o3-mini模型在有效预算49k token时准确性从76.9提升至86.7,绝对值提升9.8个百分点[13][14] - 蒸馏策略比较显示样本级top-k和全局摘要选择一致性优于共享top-k和random-k,且随着思维预算增加差距扩大,例如在16384预算下gemini-2.5-flash的全局摘要策略达到86.46/84.38准确率[16][19][20] - 验证能力影响实验表明注入错误候选会导致性能下降,o3-mini性能下降显著大于gemini-2.5-flash,说明后者具有更强自我验证和恢复能力[21]