核心观点 - 大推理模型(LRMs)在简单数学问题上仍需消耗1400+ tokens进行思考,存在效率瓶颈 [1] - Laser系列方法通过创新奖励设计实现模型准确率与token使用效率的双提升,例如在AIME24基准上减少63% tokens同时提升6.1%性能 [3][34] - 动态难度感知机制(Laser-D/D-E)进一步优化不同难度题目下的token分配,实现更优平衡 [28][29] 方法创新 统一框架 - 将截断训练与长度奖励设计统一为"正确性奖励+长度奖励+控制开关"的组合框架 [14][18][19] - 传统截断方法存在长回答中正确/错误奖励混淆的问题,影响模型学习效果 [22] Laser奖励设计 - 采用阶跃函数奖励机制,对目标长度内的正确回答给予正向激励,避免无差别惩罚长回答 [24][25][26] - 动态调整目标长度(Laser-D)和错误探索机制(Laser-DE)分别提升难度适配性与纠错能力 [28] 实验效果 性能数据 - 在7B模型上,Laser-D对AIME24任务实现5.1%准确率提升+60% tokens节省 [36] - 32B模型应用Laser-DE后,token使用量减少41%(10335→6785)同时保持70.8%准确率 [35] - 领域外测试(GPQA/LSAT/MMLU)显示方法具备泛化性 [37] 行为优化 - 训练后模型冗余的"自我反思"行为减少86%,关键推理行为(验证/子目标拆解)保留率超90% [39][40] - 模型思考路径更简洁直接,如"1+1"问题响应速度提升300% [41][43] 技术实现 基准对比 - 原始模型平均消耗10177 tokens,Laser-D将其降至3315 tokens(降幅67%) [14][35] - 帕累托前沿显示Laser系列始终位于baseline准确率曲线上方 [30][32] 参数细节 - 采用DeepSeek-R1-Distill-Qwen的1.5B/7B/32B模型验证 [30] - 监控集动态调整易/中/难题目标长度,训练开销增加<1% [28]
港科大Apple新研究:Tokens使用量减少,模型推理还更强了