新研究揭示DeepSeek/o3弱点:频繁切换思路放弃正确方向,最短答案往往就是对的!
量子位·2025-02-03 11:48
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek和o1/o3一类推理大模型持续带来震撼之际, 有人开始研究他们的弱点了 。 最新研究揭示: 在遇到高难度问题时,推理大模型可能像"三心二意的学生"一样频繁切换解题思路,却因缺乏深入探索而失败——这种现象被研究者称为 Underthinking (欠思考) 。 研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1和Qwen QwQ 系列模型。 通过分析AI的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于"浅尝辄止",很快开始探索别的思路,导 致后续生成的数千个tokens对解题毫无贡献。 这种"无效努力"不仅浪费计算资源,还显著降低了答案的正确率。 "三心二意"是罪魁祸首 这一现象在解决数学竞赛题等更为复杂任务时尤为明显。 为了系统分析,团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上,对类o1模型QwQ-32B-Preview、DeepSeek- R1-671B等进行了实验。 下图比较了正确和错误回答中的token使用量和 ...