ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！

文章核心观点 - 哈尔滨工业大学（深圳）等机构提出的隐式思考模型LRT，通过轻量级推理网络将大模型冗长的显式思维链压缩为紧凑的隐式向量表征，实现一次前向计算完成推理，显著提升了推理效率并超越了原生非思考模式的性能 [2][9][33] 研究背景与动机 - 以OpenAI o1、DeepSeek-R1、Qwen QwQ为代表的慢思考推理模型存在“过度思考”问题，生成冗长的逐步推理链 [4] - 核心研究发现，推理轨迹存在大量冗余，即使随机丢弃50%的推理轨迹，模型准确率仅下降约2个百分点 [5][8] 技术方法：LRT框架 - 核心思想是用一个轻量级推理网络，将显式推理链“编码”为固定长度的隐式向量，直接注入大模型生成最终答案 [10] - 技术流程分为三步：输入编码、隐式推理（一次前向传播生成隐式向量）、答案生成 [13] - 训练采用两阶段优化：第一阶段监督微调优化推理网络参数，第二阶段采用强化学习（GRPO）以答案正确性作为奖励信号进一步优化 [18][19] 实验结果：高效思考 - 在DeepSeek-R1-Distill-Qwen-1.5B模型上，LRT在不同Token预算下表现最优 [21] - 在512-Token预算下，LRT平均准确率比NoThinking模式高2.66%，比RL类方法ShorterBetter和LC-R1分别高5.90%和4.74% [21] 实验结果：混合思考范式 - LRT的模块化设计适合作为混合推理新范式，可在简单问题用隐式思考快速作答，困难问题切换回显式慢思考 [23] - 在Qwen3-4B模型上，LRT的pass@4平均准确率达到71.60%，比Qwen3原生非思考模式高出5.82个百分点 [23] - 在GSM8K任务上提升近7%，在LSAT任务上提升超过14% [23] 实验结果：推理效率与消融分析 - LRT的推理延迟显著低于Qwen3的混合思考模式，甚至比非思考模式还快，因为隐式推理向量引导模型生成更简洁答案，减少解码步数 [26] - 消融实验显示，隐式推理token数量从64增加到256时，性能从42.53%稳步提升至48.42% [27] - 加入强化学习训练阶段后，域内任务平均提升约9%，域外任务平均提升约4.3% [28] - 对于更大的基础模型（如Qwen3-8B），使用512个隐式token时性能仍能提高，说明隐式推理的“容量”与基础模型能力正相关 [29] 研究总结与意义 - 理论层面，系统性地揭示了推理轨迹的高度冗余性，证明完整逐步推理链并非正确推理的前提 [33] - 效率层面，通过将显式推理链压缩为隐式向量，用单次前向计算替代数千步自回归解码，大幅降低推理成本 [33] - 应用层面，模块化的即插即用设计，无需修改大模型参数，可在隐式与显式推理间无缝切换，为混合推理系统提供了更优替代方案 [33] - 效果层面，在数学、逻辑、科学等多类基准上全面超越现有高效推理方法 [33]