Workflow
隐式CoT
icon
搜索文档
o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」
机器之心· 2026-02-01 12:22
文章核心观点 - 研究提出了一种名为SIM-CoT(Supervised Implicit Chain-of-Thought)的新方法,旨在解决隐式思维链(Implicit CoT)在扩展时出现的训练不稳定和语义塌缩问题[2] - 该方法的核心创新在于引入了一个即插即用的步骤级监督模块,通过辅助解码器在训练时将每个隐式token对齐到可解释的推理步骤上,从而稳定优化并提升性能,且在推理阶段无需该模块,实现零额外开销[2][3] - 实验表明,SIM-CoT在多个模型(如GPT-2, LLaMA)和数据集上均能稳定提升推理准确率,首次实现了隐式CoT性能超越显式CoT,同时保持了更高的token效率[3][17][18] 技术背景与挑战 - 复杂推理任务(如数学、符号推理)传统上依赖显式思维链(CoT),但存在token开销高、时延增加以及容易产生模板化、无效推理的瓶颈[9] - 隐式CoT旨在用少量隐式token在内部完成多步推理以降低开销,但面临“潜变量不稳定”的关键挑战:增加隐式token数量时,训练易变得不稳定甚至塌缩,导致关键运算符信息丢失和语义同质化[7][9] - 现有隐式CoT方法(如Coconut, CODI)的监督粒度较粗,主要在答案或整体轨迹层面,缺乏对中间推理步骤的约束,难以保证隐式token学到有效的推理过程[10][12] SIM-CoT方法原理 - SIM-CoT基于一个新视角:高质量的隐式推理应与其“可对齐的逐步语义”成正比,即每个隐式token应能对应解码为一个具体的推理步骤[14] - 方法在训练阶段引入一个辅助解码器,对每个隐式latent token进行步骤级监督,将其“拉回”并与对应的显式推理步骤对齐,从而丰富并稳定隐式推理的潜在空间[2][14] - 该辅助解码器仅在训练时使用,在推理阶段被移除,因此不会引入任何额外的计算开销或时延[3][15] 实验结果与性能提升 - 在GPT-2模型上,使用Coconut作为骨干网络,SIM-CoT在in-domain数据集GSM8k-Aug上的准确率从36.6%提升至44.8%(绝对提升+8.2%),超过了准确率为42.7%的显式监督CoT方法[18] - SIM-CoT实现了2.3倍的token效率,其平均token使用量远低于显式SFT-CoT[18] - 在GSM-Hard、MultiArith、SVAMP三个out-of-domain数据集上,SIM-CoT(Coconut骨干)的平均准确率从42.6%提升至46.9%(绝对提升+4.3%),展示了其扎实的泛化推理能力[19] - 在更强的基线CODI之上,SIM-CoT在GPT-2上仍能带来in-domain准确率+0.6%和out-of-domain平均准确率+0.3%的提升[20] - 方法可扩展至更大模型,在LLaMA 3.2 3B模型上带来in-domain准确率+1.5%和out-of-domain平均准确率+0.7%的提升;在LLaMA-3.1 8B模型上对CODI带来+3.0%的提升[20] - 在LLaMA 1B模型上,SIM-CoT(Coconut骨干)将准确率从33.2%提升至42.2%(+9.0%),在CODI骨干上从52.7%提升至56.1%(+3.4%)[22] 方法优势与特点 - **性能提升显著且稳定**:在不同规模模型(GPT-2, LLaMA 1B/3B/8B)上均能带来稳定的准确率提升,范围在+1.5%至+9.0%之间,即使在8-16个隐式token的易崩设置下也能保持稳定[3][22] - **推理零额外开销**:辅助解码器训练后即丢弃,推理效率与其他隐式方法一致,并相对显式CoT仍有速度优势[3][21] - **首次实现隐式超越显式**:在GPT-2上,SIM-CoT的准确率首次超过了监督训练的显式CoT方法(SFT-CoT)[18] - **潜在可解释性**:该方法使得隐式推理首次变得可解释,能够将每个latent token解码为人类可读的中间推理步骤[2]