顺序精炼（SR） - 财报，业绩电话会，研报，新闻

顺序精炼（SR）

搜索文档

机器之心· 2025-10-03 11:39

大语言模型推理方法创新 - 研究提出一种名为并行-蒸馏-精炼（PDR）的新型推理方法家族，该方法通过并行生成多样化草稿、蒸馏成有限文本工作区、并在此基础上精炼输出，从而在控制上下文长度的同时提升模型准确性[3] - 当PDR方法的并行度设置为1时，得到顺序精炼（SR）这一特例，即迭代改进单一候选答案，其表现优于长思维链，但代价是更高的延迟[3] - 在具有可验证答案的数学任务中，PDR方法带来显著提升，在AIME 2024和AIME 2025数学任务中准确率分别提高11%和9%[4] 模型作为改进操作符的框架 - 研究将大语言模型视为改进操作符，通过读写压缩循环实现迭代精炼：读取当前工作区、写出改进成果、压缩回有限工作区为下一步准备[6] - 框架在两种token预算下评估方法：顺序预算（延迟代理，沿接受路径的tokens）和总预算（计算成本代理，所有调用包括丢弃分支的tokens）[6] - 短上下文迭代精炼流程包括顺序精炼（SR）和并行-蒸馏-精炼（PDR），前者改进单一成果，后者每轮基于有限摘要采样并重新综合[7][9] 操作符一致性训练效果 - 研究训练了一个8B规模的思考模型，使用强化学习使其与PDR推理方法保持一致，通过优化模型在短上下文迭代接口下的表现确保训练与推理一致性[3][10] - 操作符一致性训练改变了帕累托前沿，PDR强化学习相比基准方法在AIME 2024上提升3.34个百分点，在AIME 2025上提升1.67个百分点[26] - 从基准强化学习检查点开始的持续更新带来更大提升，在AIME 2024和AIME 2025上分别提升5.00和4.59个百分点[26][27] 实验研究成果 - 在预算感知协议下，顺序精炼和并行-蒸馏-精炼操作符在匹配延迟情况下超越长思维链基准，例如o3-mini模型在有效预算49k token时准确性从76.9提升至86.7，绝对值提升9.8个百分点[13][14] - 蒸馏策略比较显示样本级top-k和全局摘要选择一致性优于共享top-k和random-k，且随着思维预算增加差距扩大，例如在16384预算下gemini-2.5-flash的全局摘要策略达到86.46/84.38准确率[16][19][20] - 验证能力影响实验表明注入错误候选会导致性能下降，o3-mini性能下降显著大于gemini-2.5-flash，说明后者具有更强自我验证和恢复能力[21]

并行 - 蒸馏 - 精炼（PDR）

顺序精炼（SR）

操作符一致性训练

Artificial Intelligence

Artificial Intelligence

大语言模型（LLM）