Long CoT - 财报，业绩电话会，研报，新闻

Long CoT

搜索文档

量子位· 2025-12-21 10:00

文章核心观点 - 上海人工智能实验室的研究团队提出了一种名为RePro（Rectifying Process-level Reward）的全新后训练范式，旨在解决大语言模型在长思维链推理中出现的“过度思考”问题，通过将推理过程视为内部状态的优化过程，并引入过程级奖励机制，引导模型生成更高效、更简洁的推理路径，从而在提升准确率的同时减少计算开销和推理延迟 [2][3][4][30] 长思维链推理的挑战与RePro的核心理念 - 长思维链已成为提升大模型复杂推理能力的标配，但模型常陷入“过度思考”陷阱，生成数千个冗余Token或在错误路径上反复横跳，浪费算力并增加延迟 [1] - RePro基于“推理即优化”的核心思想，将模型的推理轨迹视为在损失曲面上寻找最优解的路径，每一步推理都相当于一次梯度更新，目标是最大化生成正确答案的概率 [3][7] - 正确的推理路径上，衡量模型对答案信心的代理目标函数J̃会平稳上升，而低效的“胡思乱想”路径则表现为震荡或停滞 [9] RePro的三大矫正机制 - **代理目标函数J**：设计了一个可计算的目标函数J̃，用于量化模型在当前推理步骤下生成正确答案的平均对数概率，该指标越高代表模型对答案越自信 [5][6] - **双重评分机制**：将推理质量拆解为两个维度进行量化 [10] - **强度评分**：衡量目标函数J̃的提升幅度，即一段思考让模型离答案近了多远，通过比较当前步骤后的J̃值与基线值（不思考直接回答的信心）来计算相对增益，并使用tanh函数归一化以防止梯度爆炸 [11][12] - **稳定性评分**：衡量J̃是否平滑上升，利用Kendall‘s Tau相关系数计算J̃值序列与时间步序列的秩相关性，高稳定性（接近1）表示每一步都在进步，低稳定性表示逻辑混乱或倒退 [13][14] - **流程级奖励整合**：将强度评分与稳定性评分加权构成最终过程评分S，用于判断思维路径的价值 [15] - 采用**熵值筛选策略**以降低计算开销：将推理链按逻辑段落分割，计算每个段落首Token的熵，只选择熵最高的前k个段落进行RePro奖励计算，从而在模型最迷茫的关键时刻给予指引 [18][19][20] - 通过计算过程评分的提升量ΔS作为“过程级奖励”，与最终结果奖励结合，输入到强化学习的优势函数中，高效精准地引导模型优化关键决策点的推理 [21][22] 实验效果与性能提升 - **准确率稳定提升**：在数学、科学、编程等多个任务上，RePro结合不同强化学习算法均带来稳定提升 [23] - 在DeepSeek-R1-Distill-1.5B模型上，使用PPO+RePro后，在AIME24、AIME25、MATH500基准上的Pass@1准确率分别达到36.3%（提升1.5个百分点）、27.7%（提升3.3个百分点）、87.7%（提升0.8个百分点） [24] - 在Qwen3-1.7B模型上，使用GRPO+RePro后，在相同基准上的准确率分别达到49.8%（提升2.5个百分点）、37.9%（提升3.1个百分点）、94.1%（提升0.7个百分点） [24] - **推理效率显著提高**： - **推理Token数量显著减少**：随着训练进行，RePro模型生成的平均Token数量稳步下降，表明模型学会了“少说废话”，在更短的路径内给出更准的答案 [25][27] - **回溯行为减少**：模型在推理过程中出现的“反复检查”或“思路绕圈子”的比例显著下降 [28] - **泛化能力良好**：效率改进不仅出现在数学任务，在科学和代码任务上也有类似表现 [25] - 科学推理任务GPQA-Diamond上，准确率从34.5%提升至37.0%（提升2.5个百分点） [25] - 代码推理任务MBPP和LiveCodeBench上，准确率分别从62.5%提升至65.4%（提升2.9个百分点）、从15.2%提升至18.4%（提升3.2个百分点） [25] 研究意义与行业启示 - RePro的成功证明，更好的推理不一定需要更长的思维链，而是需要更“有效”的优化路径，简明扼要的推理才是好推理 [30] - 该方法通过将优化视角引入后训练阶段，为解决长思维链推理的效率瓶颈提供了一个优雅且通用的解法，引导大模型不仅要算对，还要算得高效 [30]