步骤级奖励 - 财报，业绩电话会，研报，新闻

步骤级奖励

搜索文档

量子位· 2025-09-11 18:19

文章核心观点 - 美团等机构研究团队提出可验证的过程奖励机制（VSRM）通过奖励有效步骤和惩戒无效步骤显著减少大型语言模型（LRM）在思维链（CoT）推理中的过度思考问题在保持模型性能的同时实现输出长度的大幅缩减 [1][7][9][13][18] 过度思考问题分析 - 过度思考问题表现为模型对简单问题生成冗长输出（例如8734个token）包含大量无效推理步骤导致中间结论错误并影响最终答案准确性 [4][5][6] - 案例显示模型在计算闭区间[-500,500]内整数数量时反复修正步骤最终错误输出500（正确答案应为501）无效步骤占比超过50% [5] - 根本原因是中间步骤无法推动解题进展甚至引入错误需通过后训练机制抑制无效步骤 [6][7] VSRM机制设计原理 - 通过特殊token（例如"However"、"Therefore"）划分推理步骤结合三条规则确保步骤可读性：跳过初始重述、避免过度分割、调整句子内部token位置 [11] - 使用子轨迹正确率差值计算步骤奖励：$$\mathcal{A}_{\mathcal{T}_{i}}=\frac{1}{N}\sum_{j=i}^{N}I(\mathrm{IsCorrect}(\mathrm{LRM}(\mathcal{T}_{i})_{j}))$$ 和 $$d_{i-1}=\mathcal{A}_{i}-\mathcal{A}_{i-1}$$ [12] - 引入前瞻窗口机制解决奖励稀疏问题通过折扣因子传播未来正确率变化使奖励信号更密集：$$R_{\mathcal{T}}=[\ldots,r_{1},\ldots,r_{t},\ldots,r_{k},\ldots,r_{\mathcal{T}}^{\mathrm{result}}+r_{\mathcal{T}}^{\mathrm{format}}]$$ [13] - 机制与强化学习算法解耦可适配支持过程奖励的方法结合结果奖励和格式奖励实现高效推理 [13] 实验结果 - 在AIME24、AIME25、MATH-500等数学基准测试中 VSRM使1.5B/7B/DeepScaleR模型输出长度缩减35%-60% 同时保持或提升准确率 [14][15] - 1.5B模型在MATH-500上输出长度从4960 token降至2400 token（降幅51.6%）准确率保持82.2% [15] - 7B模型在AMC23上输出长度从6884 token降至3704 token（降幅46.2%）准确率提升1.8个百分点至80.9% [15] - 消融实验验证前瞻窗口必要性：移除后输出长度增加39%（从7065升至8638 token）显式长度惩罚会降低准确率（例如AIME25从23.0%降至20.9%） [16] 机制优势 - 从源头区分步骤有效性避免直接长度惩罚对性能的损害保持模型探索多解能力（Pass@k指标趋势一致） [13][16][18] - 适用于不同规模模型和RL算法（PPO/R++）在OlympiadBench等复杂任务中均有效 [15][18]