显式CoT
搜索文档
10倍加速化学推理大模型!Haven团队在隐空间思考分子式,碾压显示CoT
量子位· 2026-03-20 13:04
文章核心观点 - 由Haven团队与斯坦福大学、普林斯顿大学研究人员提出的LatentChem模型,旨在革新AI在化学领域的推理方式,其核心观点是:对于科学推理(尤其是化学),将推理过程从显式的自然语言思维链(CoT)转移到模型内部的连续隐空间中进行,可能比传统的“把步骤写出来”更有效、更符合化学推理的本质 [5][6][7] 传统思维链方法的局限性 - 在化学场景中,传统大模型通过生成大量文本思维链进行推理的方法存在“说一套,做一套”的问题,即模型能写出专业的化学分析文字,但最终生成的分子结构(如SMILES)却与分析对不上 [8][9][10][11] - 其根本原因在于化学推理本身更适合在**连续、结构化**的空间中进行,而自然语言token是**离散**的,强行将连续推理过程切割成离散文本步骤会产生“连续性-离散化鸿沟”,导致推理效率低下且描述与结果脱节 [12][13][14] LatentChem的核心机制 - 核心思路是“先在隐空间里思考,再在语言空间里回答”,将推理与表达拆分开,并非取消推理,而是更换了推理介质 [15][23] - 具体流程分为四步:1) 将分子信息编码为固定数量的ChemTokens作为软提示;2) 在隐空间生成一串承载关键推理信息的latent thought向量,而非主要依赖文本;3) 通过ChemUpdater模块,使推理每一步都能回看并更新分子表示,实现动态聚焦;4) 通过Latent Projector将隐状态映射回输入空间,形成多步连续更新的闭环 [16][17][18][19][20][21][22] 模型行为的转变与验证 - 在强化学习训练阶段,当奖励机制只关注最终结果(输出格式、答案有效性、准确性)而不鼓励写出思维链时,模型会**自发减少显式CoT**,通常只在内部完成推理后输出一个极短过渡符号(如“.”或“:”)便直接给出答案 [24][25][26][27] - 实验证明,latent thinking并非摆设:当用高斯噪声替换前面的隐状态步骤时,模型性能下降明显,表明这些隐状态承载了推理所需的关键信息 [28][29][30] - 模型学会了灵活的分配策略:当隐空间推理预算充足时,更多在内部计算;当预算被压缩时,会重新启用显式文本推理来补足能力,这说明模型学到的不是简单禁止输出,而是更优的计算资源分配 [34][35][36][37][38] 性能表现与效率提升 - 在化学基准测试中表现亮眼:在高度依赖推理的ChemCoTBench测试中,相比强大的显式CoT基线模型,取得了**高59.88%的非平局胜率** [42] - 效率大幅提升:通过将冗长的文本推理转化为紧凑的隐状态,**平均推理速度暴涨10.84倍**,在特定反应任务上效率甚至提升了近30倍 [42] - 性能数据概览:在多个基准测试中,LatentChem表现优异,例如在ChemCoTBench (All) 上达到59.88,在Mol-Instructions (All) 上达到49.88,在ChEBI-20 (Open) 上达到85.26 [43] 对AI Scientist发展的意义 - LatentChem不仅是新的化学模型,更是构建未来AI Scientist系统的关键组件,展示了让AI在**结构化的连续隐空间**中完成科学推理,再按需输出可解释结果的新范式 [44][45][46] - 这项工作挑战了传统认知,证明显式CoT可能只是推理的一种外化形式,而非推理本身,其真正意义在于将推理从文本表面收回到模型内部,为下一代科学AI奠定了更符合底层规律的计算基础 [39][42][47] - 未来的AI Scientist在执行分子设计、实验规划等复杂科学工作流时,其持续推理、探索和发现的过程可能主要发生在隐空间中,而不必将每一步思考都写出来 [48][49]
o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」
机器之心· 2026-02-01 12:22
文章核心观点 - 研究提出了一种名为SIM-CoT(Supervised Implicit Chain-of-Thought)的新方法,旨在解决隐式思维链(Implicit CoT)在扩展时出现的训练不稳定和语义塌缩问题[2] - 该方法的核心创新在于引入了一个即插即用的步骤级监督模块,通过辅助解码器在训练时将每个隐式token对齐到可解释的推理步骤上,从而稳定优化并提升性能,且在推理阶段无需该模块,实现零额外开销[2][3] - 实验表明,SIM-CoT在多个模型(如GPT-2, LLaMA)和数据集上均能稳定提升推理准确率,首次实现了隐式CoT性能超越显式CoT,同时保持了更高的token效率[3][17][18] 技术背景与挑战 - 复杂推理任务(如数学、符号推理)传统上依赖显式思维链(CoT),但存在token开销高、时延增加以及容易产生模板化、无效推理的瓶颈[9] - 隐式CoT旨在用少量隐式token在内部完成多步推理以降低开销,但面临“潜变量不稳定”的关键挑战:增加隐式token数量时,训练易变得不稳定甚至塌缩,导致关键运算符信息丢失和语义同质化[7][9] - 现有隐式CoT方法(如Coconut, CODI)的监督粒度较粗,主要在答案或整体轨迹层面,缺乏对中间推理步骤的约束,难以保证隐式token学到有效的推理过程[10][12] SIM-CoT方法原理 - SIM-CoT基于一个新视角:高质量的隐式推理应与其“可对齐的逐步语义”成正比,即每个隐式token应能对应解码为一个具体的推理步骤[14] - 方法在训练阶段引入一个辅助解码器,对每个隐式latent token进行步骤级监督,将其“拉回”并与对应的显式推理步骤对齐,从而丰富并稳定隐式推理的潜在空间[2][14] - 该辅助解码器仅在训练时使用,在推理阶段被移除,因此不会引入任何额外的计算开销或时延[3][15] 实验结果与性能提升 - 在GPT-2模型上,使用Coconut作为骨干网络,SIM-CoT在in-domain数据集GSM8k-Aug上的准确率从36.6%提升至44.8%(绝对提升+8.2%),超过了准确率为42.7%的显式监督CoT方法[18] - SIM-CoT实现了2.3倍的token效率,其平均token使用量远低于显式SFT-CoT[18] - 在GSM-Hard、MultiArith、SVAMP三个out-of-domain数据集上,SIM-CoT(Coconut骨干)的平均准确率从42.6%提升至46.9%(绝对提升+4.3%),展示了其扎实的泛化推理能力[19] - 在更强的基线CODI之上,SIM-CoT在GPT-2上仍能带来in-domain准确率+0.6%和out-of-domain平均准确率+0.3%的提升[20] - 方法可扩展至更大模型,在LLaMA 3.2 3B模型上带来in-domain准确率+1.5%和out-of-domain平均准确率+0.7%的提升;在LLaMA-3.1 8B模型上对CODI带来+3.0%的提升[20] - 在LLaMA 1B模型上,SIM-CoT(Coconut骨干)将准确率从33.2%提升至42.2%(+9.0%),在CODI骨干上从52.7%提升至56.1%(+3.4%)[22] 方法优势与特点 - **性能提升显著且稳定**:在不同规模模型(GPT-2, LLaMA 1B/3B/8B)上均能带来稳定的准确率提升,范围在+1.5%至+9.0%之间,即使在8-16个隐式token的易崩设置下也能保持稳定[3][22] - **推理零额外开销**:辅助解码器训练后即丢弃,推理效率与其他隐式方法一致,并相对显式CoT仍有速度优势[3][21] - **首次实现隐式超越显式**:在GPT-2上,SIM-CoT的准确率首次超过了监督训练的显式CoT方法(SFT-CoT)[18] - **潜在可解释性**:该方法使得隐式推理首次变得可解释,能够将每个latent token解码为人类可读的中间推理步骤[2]