过度推理识别指标体系

搜索文档
推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源
量子位· 2025-06-03 14:21
核心观点 - 大模型在推理任务中普遍存在过度思考现象,导致效率降低和错误累积 [1][2] - 研究团队提出Self-Braking Tuning(SBT)方法,通过内部机制让模型自主判断何时终止推理 [3][4][10] - SBT框架包含刹车信号机制、多任务微调等设计,无需外部干预即可实现高效推理 [5][6][7] - 该方法显著减少冗余推理步骤(如Llama-3.1-8B模型token生成量减少62.8%),同时保持94.1%准确率 [40][41] 技术原理 过度推理识别 - 构建基础方案与进化方案两阶段评估体系,量化推理冗余程度 [17][18] - 采用推理效率比(步骤优化率)和过度推理标记比(特定词汇频率)双指标交叉验证 [19][20][21] 数据构建策略 - SBT-E:统一截断策略,保留基础方案+1个进化方案并掩码冗余内容 [25][26] - SBT-D:动态调整策略,根据过度推理分数阈值逐步掩码超长推理 [28][29] 制动机制设计 - 掩码训练:冗余部分不计入损失函数,引导模型聚焦关键步骤 [33][34][35] - 自然语言提示:通过语义信号(如"Wait")辅助模型主动停止推理 [36][37] 实验效果 - 在AIME、AMC等数学推理测试中实现"少思考不失准确"的效果 [38][39] - 方法具有跨模型架构通用性,验证了冗余推理可剔除的理论假设 [41][42] 资源链接 - 论文与项目主页提供技术细节和开源代码 [42][43]