Workflow
推理失衡
icon
搜索文档
ICLR 2026 | 别再让大模型“想太多”了!最新研究揭示 LLM 推理效率的关键瓶颈
机器之心· 2026-03-10 18:35
文章核心观点 - 大语言模型在推理部署中存在“过度思考”与“思考不足”并存的问题,其根源在于“推理失衡”,即计算资源的分配与问题各阶段的实际难度不匹配 [2][7] - 研究提出了一种名为BAM的理论模型,主张基于“认知不确定性”来动态分配推理算力,将资源集中在关键步骤,而非均匀或盲目地延长整个推理过程 [9][14][17] - 基于BAM理论,研究团队开发了无需训练、仅在推理阶段运行的“Plan-and-Budget”框架,该框架通过先规划再分配的策略,在多种任务和模型上实现了同时提升准确率与计算效率的目标 [19][38][41] 核心洞察:推理失衡 - 系统分析发现,主流推理模型普遍存在“推理失衡”现象,模型常在非关键步骤上反复思考,却在决定成败的关键步骤上一带而过 [7] - 这种失衡与模型推理过程中“不确定性的动态变化”密切相关,推理效率的关键不在于总token数,而在于token被用在了哪一步 [8] 理论突破:BAM模型 - BAM模型的核心思想是用“认知不确定性”来指导算力分配,该不确定性刻画了“在某一步,多想一点是否真的能让模型理解得更清楚” [14] - 理论模型借鉴神经网络缩放定律,描述了token数量与不确定性降低之间的关系,表明存在明显的边际收益递减,前几个token价值高,后面的token收益递减 [14][15] - 在总推理预算有限的前提下,BAM推导出的最优分配原则是:将更多预算分配给那些初始不确定性高、但能通过思考有效消除的步骤 [16] 落地框架:Plan-and-Budget - Plan-and-Budget框架包含两个步骤:先规划,将复杂问题拆解为结构化子问题以明确思考方向;再分配,采用前置衰减等策略为不同子问题分配token [20][21][23] - 该框架无需任何训练或微调,其分配策略在实践中近似实现了BAM的最优分配原则,旨在把算力用在最关键的地方 [19][28] 实验结果 - 在TravelPlanner任务中,Plan-and-Budget在简单、中等、困难三种难度问题上都取得了最高的通过率,而全局限制token的方法在所有难度上都降低了通过率,尤其在中等和困难问题上性能下降明显 [30][32][33] - Plan-and-Budget的提升并非靠多用算力换来,其在通过率更高的同时,平均token使用量反而更低 [35][44] - 为综合衡量准确与高效,论文提出了E³指标,该指标奖励用更少token得到更好答案的方法,Plan-and-Budget在该指标下表现突出 [36][37] - 综合多种推理任务和模型规模,Plan-and-Budget带来了稳定的收益,例如最高实现+70%的准确率提升,最高-39%的token使用量减少,E³指标最高提升193.8% [38][45] 意义与展望 - 这项研究传递了一个关键信号:推理效果的关键不在于算力多少,而在于算力是否被合理使用 [41] - 研究提出了一种新的推理范式:从追求“推理长度”转向追求“推理价值”,从“算得更多”转向“算得更聪明” [42] - “按需推理”的思想有望成为未来高效、可控智能系统的重要基础,特别是在对成本、时延和稳定性要求严格的真实部署场景中 [42]