长时程任务执行能力
搜索文档
剑桥揭开大模型翻车黑箱,别再怪它不懂推理,是行动出错了
36氪· 2025-10-13 18:46
研究核心观点 - 大模型在长时任务中表现不佳的根本原因并非推理能力不足,而是执行能力存在缺陷 [1][6] - 剑桥大学等机构的研究表明,问题出现在执行计划的稳定性上,而非规划或推理本身 [1][6][20] - 通过将规划与执行解耦的实验设计,研究人员纯化出“长视界执行能力”这一关键指标进行测量 [11][15][16] 长时任务执行能力评估 - 研究定义了多个量化指标:步骤准确率、轮次准确率、轮次复杂度、任务准确率和视界长度 [7] - 视界长度定义为模型在特定步骤处的平均任务准确率降至低于成功率阈值s的位置 [7] - 实验显示,单步准确率超过70%后,模型可执行的任务长度随单步准确率增加呈现快于指数的增长 [9] - 在软件工程任务上,前沿模型在s=0.5时的视界长度呈指数增长,每7个月翻一番 [14] 模型规模与执行能力关系 - 扩大模型规模能显著提升长视界执行能力,收益并未递减 [32] - 更大的模型能在更多轮次上保持更高的任务准确率,拥有显著更长的视界长度 [31][32] - 即便移除了规划和知识需求,长视界执行本身依然极具挑战性,小模型如Qwen3-4B与Gemma3-4B在第一步准确率未达100%,而表现最好的Qwen3-32B在15轮内准确率也跌至50%以下 [25][26][27][28] 自条件化效应 - 研究发现随着轮次增加,模型准确率下降存在“自条件化效应”,即当上下文包含模型先前错误时,会导致后续更容易犯错 [3][33] - 自条件化效应与长上下文问题是导致性能退化的两个独立因素 [35] - 扩大模型规模能缓解长上下文引起的退化,但无法缓解自条件化效应,即使参数规模达到200B以上的前沿模型仍受其影响 [36] 思考模型的作用 - 具备“思考”或推理链能力的模型能显著修复自条件化效应 [38][40] - 思考模型如Qwen3的思考版不再发生自条件化,无论上下文错误率如何,其在第100轮的准确率保持稳定 [40][41] - 基准评测显示思考模型“抗翻车能力”更强,单轮可执行的任务长度大幅提升,例如DeepSeek-V3的思考版R1能执行200步,而非思考版跑2步都困难 [43]