Workflow
推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源
量子位·2025-06-03 14:21

ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI DeepSeek-R1、OpenAI o1等推理模型大放异彩。但随着能力增强,一个副作用越来越明显—— 这不光影响效率,更可能导致错误 —— 在长链式思考中,每一步的小误差都会累积放大 ,最后可能想着想着就跑偏了。 于是,一个关键问题摆在了现实面前: 如何让模型既然会思考推理,也懂得"适可而止",知道什么时候该停下来? 针对于此,来自浙江大学、天津大学和MSRA的研究团队提出了一个新方法, Self-Braking Tuning (SBT) 。 它是一种轻量级、通用的调优机制,可无缝集成到现有大模型中。其主要目的是让模型不再一味求"多想",而是在最短路径上到达正确答案。 其核心设计包括刹车信号机制、多任务微调,且无需外部模块或改动推理流程。 其中,刹车信号机制是在训练阶段引入一类特殊的信号,指示"当前信息已经足够完成任务",模型据此学习何时应终止推理。 多任务微调则指挥模型同时学习如何解题&何时停步,兼顾准确性与效率。 它们开始想太多了 。 从奥数题到程序逻辑,能解的题越来越多、推理链条越来越长。 也就是说,模型在完成推理任务时, 常常出现过度 ...