长程任务执行

搜索文档
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
36氪· 2025-09-16 15:46
很多人认为,Scaling Law 正在面临收益递减,因此继续扩大计算规模训练模型的做法正在被质疑。最近的观察给出了不一样的结论。研究发 现,哪怕模型在「单步任务」上的准确率提升越来越慢,这些小小的进步叠加起来,也能让模型完成的任务长度实现「指数级增长」,而这一 点可能在现实中更有经济价值。 这篇论文来自剑桥大学等机构。论文指出,长期以来,完成长程任务一直是深度学习的致命弱点。自动驾驶 demo 很炫酷,但要真正上路跑长途,用了十 多年才实现。AI 能生成惊艳的图片,但拍一段连贯、一致的长视频至今仍是难题。现在企业都想要 AI 帮忙处理整个项目,而不只是回答零散问题。但这 里有个核心疑问:我们该如何衡量 LLM 能可靠执行多少步的工作? LLM 在简单长任务上的失败被认为是推理能力的根本缺陷。尽管 LLM 在复杂推理基准测试上有了巨大改进,依然有论文声称思考模型只是给出了「思考 的幻觉」(arXiv:2506.06941),因为当任务变得更长时,它们最终会失败。 论文标题:The Illusion of Diminishing Returns: Measuring Long Horizon Execution ...
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
机器之心· 2025-09-16 12:01
Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减 继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢 这些微小进步叠加能让完成任务长度实现指数级增长 这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减 但模型现实世界价值源于智能体能完成任务的长度 从这个角度 更大模型能将单步准确率微小提升复合放大 在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点 自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题 规划涉及决定检索信息或使用工具顺序 执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划 最初正确执行许多步骤 最终失败在于执行 随着任务变长 模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小 但准确率微小提升可复合放大 导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量 说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后 步骤准确率微小提升带来比指数级更快任务长度改善 即使在短任务问答基准测试中准确率提升似乎放缓 从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进 每步错误率本身会上升 这与人类形成对比 人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高 后续步骤准确率急剧下降 验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降 且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响 能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成 而具备思考能力版本R1能执行200步 凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步 远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算 如果智能体经济价值源于它能完成任务时长 那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉 而更能体现经济价值指标 模型能完成任务时长 实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值 那么持续投入增加计算量可能值得 即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况 将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合 而执行是实际执行这些操作 符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求 长时程任务执行对LLM仍具挑战性 所有模型第一步达到100%准确率 但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率 导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加 各轮次准确率稳步下降 长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时 模型在第100轮轮次准确率低于初始值 这与长上下文退化观察一致 随着上下文中注入错误比例提高 第100轮准确率持续下降 证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下 不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型 连复杂度为2单轮任务都无法完成[34] - 借助思维链 模型在单轮中能执行步骤数量显著增加 对于智能体 行动前先进行推理至关重要[36] - 对于长时程执行任务 顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战 开源权重模型仍在追赶仅通过API提供模型[37]