大语言模型推理 - 财报，业绩电话会，研报，新闻

大语言模型推理

搜索文档

ICLR 2026 | 别再让大模型“想太多”了！最新研究揭示 LLM 推理效率的关键瓶颈

机器之心· 2026-03-10 18:35

文章核心观点 - 大语言模型在推理部署中存在“过度思考”与“思考不足”并存的问题，其根源在于“推理失衡”，即计算资源的分配与问题各阶段的实际难度不匹配 [2][7] - 研究提出了一种名为BAM的理论模型，主张基于“认知不确定性”来动态分配推理算力，将资源集中在关键步骤，而非均匀或盲目地延长整个推理过程 [9][14][17] - 基于BAM理论，研究团队开发了无需训练、仅在推理阶段运行的“Plan-and-Budget”框架，该框架通过先规划再分配的策略，在多种任务和模型上实现了同时提升准确率与计算效率的目标 [19][38][41] 核心洞察：推理失衡 - 系统分析发现，主流推理模型普遍存在“推理失衡”现象，模型常在非关键步骤上反复思考，却在决定成败的关键步骤上一带而过 [7] - 这种失衡与模型推理过程中“不确定性的动态变化”密切相关，推理效率的关键不在于总token数，而在于token被用在了哪一步 [8] 理论突破：BAM模型 - BAM模型的核心思想是用“认知不确定性”来指导算力分配，该不确定性刻画了“在某一步，多想一点是否真的能让模型理解得更清楚” [14] - 理论模型借鉴神经网络缩放定律，描述了token数量与不确定性降低之间的关系，表明存在明显的边际收益递减，前几个token价值高，后面的token收益递减 [14][15] - 在总推理预算有限的前提下，BAM推导出的最优分配原则是：将更多预算分配给那些初始不确定性高、但能通过思考有效消除的步骤 [16] 落地框架：Plan-and-Budget - Plan-and-Budget框架包含两个步骤：先规划，将复杂问题拆解为结构化子问题以明确思考方向；再分配，采用前置衰减等策略为不同子问题分配token [20][21][23] - 该框架无需任何训练或微调，其分配策略在实践中近似实现了BAM的最优分配原则，旨在把算力用在最关键的地方 [19][28] 实验结果 - 在TravelPlanner任务中，Plan-and-Budget在简单、中等、困难三种难度问题上都取得了最高的通过率，而全局限制token的方法在所有难度上都降低了通过率，尤其在中等和困难问题上性能下降明显 [30][32][33] - Plan-and-Budget的提升并非靠多用算力换来，其在通过率更高的同时，平均token使用量反而更低 [35][44] - 为综合衡量准确与高效，论文提出了E³指标，该指标奖励用更少token得到更好答案的方法，Plan-and-Budget在该指标下表现突出 [36][37] - 综合多种推理任务和模型规模，Plan-and-Budget带来了稳定的收益，例如最高实现+70%的准确率提升，最高-39%的token使用量减少，E³指标最高提升193.8% [38][45] 意义与展望 - 这项研究传递了一个关键信号：推理效果的关键不在于算力多少，而在于算力是否被合理使用 [41] - 研究提出了一种新的推理范式：从追求“推理长度”转向追求“推理价值”，从“算得更多”转向“算得更聪明” [42] - “按需推理”的思想有望成为未来高效、可控智能系统的重要基础，特别是在对成本、时延和稳定性要求严格的真实部署场景中 [42]