剑桥揭开大模型翻车黑箱,别再怪它不懂推理,是行动出错了
36氪·2025-10-13 18:46
【导读】为什么大模型,在执行长时任务时容易翻车?这让一些专家,开始质疑大模型的推理能力,认为它们是否只是提供了「思考的幻觉」。近日,剑 桥大学等机构的一项研究证明:问题不是出现在推理上,而是出在大模型的执行能力上。 大模型也有「EMO」时刻。 比如,Gemini在Cursor里调试编译错误后,打开了自责「循环模式」,把「I am a disgrace(我很丢脸)」重复了86次。 尽管大模型在复杂推理能力上已有了巨大进步,但上述现象仍使一部分专家认为: 思考模型,只提供了「思考的幻觉」,因为当任务被拉长时它们最终会失败。 近日,剑桥大学等机构的一项研究对这些「翻车」现象作出解释,研究者认为: 问题不在于大模型的推理能力,而在于其执行计划的能力。 边际收益递减的错觉:衡量大语言模型的长时程任务执行能力https://arxiv.org/pdf/2509.09677 也就是说,大模型出现问题未必是源于「思考的幻觉」,而更可能是执行阶段「打滑」了。 研究人员发现,单步准确率的小幅提升,会复利式地放大你能完成的总步骤数,使任务「里程」指数级变长。 随着步骤数量增加,模型的每步准确率会下降——不仅仅是「上下文太长」,还有 ...