后训练范式
搜索文档
让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好
量子位· 2025-12-21 10:00
文章核心观点 - 上海人工智能实验室的研究团队提出了一种名为RePro(Rectifying Process-level Reward)的全新后训练范式,旨在解决大语言模型在长思维链推理中出现的“过度思考”问题,通过将推理过程视为内部状态的优化过程,并引入过程级奖励机制,引导模型生成更高效、更简洁的推理路径,从而在提升准确率的同时减少计算开销和推理延迟 [2][3][4][30] 长思维链推理的挑战与RePro的核心理念 - 长思维链已成为提升大模型复杂推理能力的标配,但模型常陷入“过度思考”陷阱,生成数千个冗余Token或在错误路径上反复横跳,浪费算力并增加延迟 [1] - RePro基于“推理即优化”的核心思想,将模型的推理轨迹视为在损失曲面上寻找最优解的路径,每一步推理都相当于一次梯度更新,目标是最大化生成正确答案的概率 [3][7] - 正确的推理路径上,衡量模型对答案信心的代理目标函数J̃会平稳上升,而低效的“胡思乱想”路径则表现为震荡或停滞 [9] RePro的三大矫正机制 - **代理目标函数J**:设计了一个可计算的目标函数J̃,用于量化模型在当前推理步骤下生成正确答案的平均对数概率,该指标越高代表模型对答案越自信 [5][6] - **双重评分机制**:将推理质量拆解为两个维度进行量化 [10] - **强度评分**:衡量目标函数J̃的提升幅度,即一段思考让模型离答案近了多远,通过比较当前步骤后的J̃值与基线值(不思考直接回答的信心)来计算相对增益,并使用tanh函数归一化以防止梯度爆炸 [11][12] - **稳定性评分**:衡量J̃是否平滑上升,利用Kendall‘s Tau相关系数计算J̃值序列与时间步序列的秩相关性,高稳定性(接近1)表示每一步都在进步,低稳定性表示逻辑混乱或倒退 [13][14] - **流程级奖励整合**:将强度评分与稳定性评分加权构成最终过程评分S,用于判断思维路径的价值 [15] - 采用**熵值筛选策略**以降低计算开销:将推理链按逻辑段落分割,计算每个段落首Token的熵,只选择熵最高的前k个段落进行RePro奖励计算,从而在模型最迷茫的关键时刻给予指引 [18][19][20] - 通过计算过程评分的提升量ΔS作为“过程级奖励”,与最终结果奖励结合,输入到强化学习的优势函数中,高效精准地引导模型优化关键决策点的推理 [21][22] 实验效果与性能提升 - **准确率稳定提升**:在数学、科学、编程等多个任务上,RePro结合不同强化学习算法均带来稳定提升 [23] - 在DeepSeek-R1-Distill-1.5B模型上,使用PPO+RePro后,在AIME24、AIME25、MATH500基准上的Pass@1准确率分别达到36.3%(提升1.5个百分点)、27.7%(提升3.3个百分点)、87.7%(提升0.8个百分点) [24] - 在Qwen3-1.7B模型上,使用GRPO+RePro后,在相同基准上的准确率分别达到49.8%(提升2.5个百分点)、37.9%(提升3.1个百分点)、94.1%(提升0.7个百分点) [24] - **推理效率显著提高**: - **推理Token数量显著减少**:随着训练进行,RePro模型生成的平均Token数量稳步下降,表明模型学会了“少说废话”,在更短的路径内给出更准的答案 [25][27] - **回溯行为减少**:模型在推理过程中出现的“反复检查”或“思路绕圈子”的比例显著下降 [28] - **泛化能力良好**:效率改进不仅出现在数学任务,在科学和代码任务上也有类似表现 [25] - 科学推理任务GPQA-Diamond上,准确率从34.5%提升至37.0%(提升2.5个百分点) [25] - 代码推理任务MBPP和LiveCodeBench上,准确率分别从62.5%提升至65.4%(提升2.9个百分点)、从15.2%提升至18.4%(提升3.2个百分点) [25] 研究意义与行业启示 - RePro的成功证明,更好的推理不一定需要更长的思维链,而是需要更“有效”的优化路径,简明扼要的推理才是好推理 [30] - 该方法通过将优化视角引入后训练阶段,为解决长思维链推理的效率瓶颈提供了一个优雅且通用的解法,引导大模型不仅要算对,还要算得高效 [30]
肖仰华教授:具身智能距离“涌现”还有多远?|Al&Society百人百问
腾讯研究院· 2025-06-27 14:59
生成式AI与具身智能的发展路径 - 生成式AI以AIGC为代表,目标是让机器具备人类大脑的认知能力,包括语言生成和逻辑思考能力 [9] - 具身智能目标是让机器习得人类身体的感知和行动能力,实现与复杂世界的高效交互 [10] - 两条技术路线都是通往AGI的关键形态,下一个重要里程碑是身心协同阶段 [10] - 生成式AI已实现生产力成百上千倍提升,如合同审校、绘画制作等工作效率大幅提高 [13] - 具身智能对生产力的提升作用相对有限,可能仅相当于人口增长1-2倍的效果 [15] 技术革命的三重标准 - 基础性:技术需像水电煤一样成为基础设施 [13] - 生产力提升:需实现指数级效率提升,如AIGC极大提高论文生产力 [13] - 社会影响:需深度渗透社会各领域,改变上层建筑 [14] - 生成式AI完全符合这三重标准,是一场真正的技术革命 [14] - 具身智能对社会的影响力相对有限,更多是认知智能突破后的技术延伸 [16] 数据与模型的关系演进 - 业界观点:模型算法决定效果下限,数据决定上限 [20] - 大模型研发70-80%成本投入在数据上,剩余在算力运维和算法设计 [21] - 数据墙问题凸显:互联网公开高质量数据已接近枯竭 [22] - 后训练范式崛起:数据规模让位于质量,算力规模让位于算法设计 [18] - 数据不足可通过知识注入缓解,但培育高质量数据集仍是根本 [23] 具身智能的数据挑战 - 当前具身模型训练数据量仅百亿token级,与语言模型万亿级相差两个数量级 [24] - 数据采集面临个体体验表达困难和环境建模复杂双重挑战 [34][35] - 真机数据成本高昂,仿真数据质量有限,制约GPT时刻到来 [25] - 可能解决方案:穿戴设备普及形成动作轨迹数据 [26] - 训练策略调整:数据量不足时可增加训练量,借鉴人类泛化机制 [36][38] 产业落地逻辑 - 行业AI落地的关键在于行业数据治理和清洗 [21] - 央国企等大甲方应重点投入行业数据准备而非模型研究 [22] - 具身机器人应走场景化、任务化路径,而非追求绝对通用性 [48] - 身体构造决定功能边界,集约化需考虑物理可行性 [49] - 专用机器人价值明确,通用机器人是伪命题 [48] 技术范式演进 - 仍未跳出符号主义、连接主义和行为主义三大传统范式 [39] - 连接主义:模拟神经网络,处理感知任务 [40] - 符号主义:基于知识推理,处理认知任务 [40] - 行为主义:通过交互反馈进化,处理技能习得 [41] - 三种范式在完整AI解决方案中各有侧重 [43] 理性思维发展 - 人类能力分为知性、理性和感性三个维度 [28] - GPT4前主要训练知性能力,O1和DeepSeek R1开启理性能力 [29] - ToB应用需要专业理性思维,ToC需要共情感性能力 [31] - OpenAI布局完整:知性(GPT4)、感性(GPT-4o)、理性(O1) [31] - 国产大模型与国际差距主要在理性能力即知识应用水平 [29]