显式CoT - 财报，业绩电话会，研报，新闻

显式CoT

搜索文档

量子位· 2026-03-20 13:04

文章核心观点 - 由Haven团队与斯坦福大学、普林斯顿大学研究人员提出的LatentChem模型，旨在革新AI在化学领域的推理方式，其核心观点是：对于科学推理（尤其是化学），将推理过程从显式的自然语言思维链（CoT）转移到模型内部的连续隐空间中进行，可能比传统的“把步骤写出来”更有效、更符合化学推理的本质 [5][6][7] 传统思维链方法的局限性 - 在化学场景中，传统大模型通过生成大量文本思维链进行推理的方法存在“说一套，做一套”的问题，即模型能写出专业的化学分析文字，但最终生成的分子结构（如SMILES）却与分析对不上 [8][9][10][11] - 其根本原因在于化学推理本身更适合在**连续、结构化**的空间中进行，而自然语言token是**离散**的，强行将连续推理过程切割成离散文本步骤会产生“连续性-离散化鸿沟”，导致推理效率低下且描述与结果脱节 [12][13][14] LatentChem的核心机制 - 核心思路是“先在隐空间里思考，再在语言空间里回答”，将推理与表达拆分开，并非取消推理，而是更换了推理介质 [15][23] - 具体流程分为四步：1) 将分子信息编码为固定数量的ChemTokens作为软提示；2) 在隐空间生成一串承载关键推理信息的latent thought向量，而非主要依赖文本；3) 通过ChemUpdater模块，使推理每一步都能回看并更新分子表示，实现动态聚焦；4) 通过Latent Projector将隐状态映射回输入空间，形成多步连续更新的闭环 [16][17][18][19][20][21][22] 模型行为的转变与验证 - 在强化学习训练阶段，当奖励机制只关注最终结果（输出格式、答案有效性、准确性）而不鼓励写出思维链时，模型会**自发减少显式CoT**，通常只在内部完成推理后输出一个极短过渡符号（如“.”或“:”）便直接给出答案 [24][25][26][27] - 实验证明，latent thinking并非摆设：当用高斯噪声替换前面的隐状态步骤时，模型性能下降明显，表明这些隐状态承载了推理所需的关键信息 [28][29][30] - 模型学会了灵活的分配策略：当隐空间推理预算充足时，更多在内部计算；当预算被压缩时，会重新启用显式文本推理来补足能力，这说明模型学到的不是简单禁止输出，而是更优的计算资源分配 [34][35][36][37][38] 性能表现与效率提升 - 在化学基准测试中表现亮眼：在高度依赖推理的ChemCoTBench测试中，相比强大的显式CoT基线模型，取得了**高59.88%的非平局胜率** [42] - 效率大幅提升：通过将冗长的文本推理转化为紧凑的隐状态，**平均推理速度暴涨10.84倍**，在特定反应任务上效率甚至提升了近30倍 [42] - 性能数据概览：在多个基准测试中，LatentChem表现优异，例如在ChemCoTBench (All) 上达到59.88，在Mol-Instructions (All) 上达到49.88，在ChEBI-20 (Open) 上达到85.26 [43] 对AI Scientist发展的意义 - LatentChem不仅是新的化学模型，更是构建未来AI Scientist系统的关键组件，展示了让AI在**结构化的连续隐空间**中完成科学推理，再按需输出可解释结果的新范式 [44][45][46] - 这项工作挑战了传统认知，证明显式CoT可能只是推理的一种外化形式，而非推理本身，其真正意义在于将推理从文本表面收回到模型内部，为下一代科学AI奠定了更符合底层规律的计算基础 [39][42][47] - 未来的AI Scientist在执行分子设计、实验规划等复杂科学工作流时，其持续推理、探索和发现的过程可能主要发生在隐空间中，而不必将每一步思考都写出来 [48][49]

o1之后下一个范式？隐式CoT大突破，让推理不再「碎碎念」

机器之心· 2026-02-01 12:22

文章核心观点 - 研究提出了一种名为SIM-CoT（Supervised Implicit Chain-of-Thought）的新方法，旨在解决隐式思维链（Implicit CoT）在扩展时出现的训练不稳定和语义塌缩问题[2] - 该方法的核心创新在于引入了一个即插即用的步骤级监督模块，通过辅助解码器在训练时将每个隐式token对齐到可解释的推理步骤上，从而稳定优化并提升性能，且在推理阶段无需该模块，实现零额外开销[2][3] - 实验表明，SIM-CoT在多个模型（如GPT-2, LLaMA）和数据集上均能稳定提升推理准确率，首次实现了隐式CoT性能超越显式CoT，同时保持了更高的token效率[3][17][18] 技术背景与挑战 - 复杂推理任务（如数学、符号推理）传统上依赖显式思维链（CoT），但存在token开销高、时延增加以及容易产生模板化、无效推理的瓶颈[9] - 隐式CoT旨在用少量隐式token在内部完成多步推理以降低开销，但面临“潜变量不稳定”的关键挑战：增加隐式token数量时，训练易变得不稳定甚至塌缩，导致关键运算符信息丢失和语义同质化[7][9] - 现有隐式CoT方法（如Coconut, CODI）的监督粒度较粗，主要在答案或整体轨迹层面，缺乏对中间推理步骤的约束，难以保证隐式token学到有效的推理过程[10][12] SIM-CoT方法原理 - SIM-CoT基于一个新视角：高质量的隐式推理应与其“可对齐的逐步语义”成正比，即每个隐式token应能对应解码为一个具体的推理步骤[14] - 方法在训练阶段引入一个辅助解码器，对每个隐式latent token进行步骤级监督，将其“拉回”并与对应的显式推理步骤对齐，从而丰富并稳定隐式推理的潜在空间[2][14] - 该辅助解码器仅在训练时使用，在推理阶段被移除，因此不会引入任何额外的计算开销或时延[3][15] 实验结果与性能提升 - 在GPT-2模型上，使用Coconut作为骨干网络，SIM-CoT在in-domain数据集GSM8k-Aug上的准确率从36.6%提升至44.8%（绝对提升+8.2%），超过了准确率为42.7%的显式监督CoT方法[18] - SIM-CoT实现了2.3倍的token效率，其平均token使用量远低于显式SFT-CoT[18] - 在GSM-Hard、MultiArith、SVAMP三个out-of-domain数据集上，SIM-CoT（Coconut骨干）的平均准确率从42.6%提升至46.9%（绝对提升+4.3%），展示了其扎实的泛化推理能力[19] - 在更强的基线CODI之上，SIM-CoT在GPT-2上仍能带来in-domain准确率+0.6%和out-of-domain平均准确率+0.3%的提升[20] - 方法可扩展至更大模型，在LLaMA 3.2 3B模型上带来in-domain准确率+1.5%和out-of-domain平均准确率+0.7%的提升；在LLaMA-3.1 8B模型上对CODI带来+3.0%的提升[20] - 在LLaMA 1B模型上，SIM-CoT（Coconut骨干）将准确率从33.2%提升至42.2%（+9.0%），在CODI骨干上从52.7%提升至56.1%（+3.4%）[22] 方法优势与特点 - **性能提升显著且稳定**：在不同规模模型（GPT-2, LLaMA 1B/3B/8B）上均能带来稳定的准确率提升，范围在+1.5%至+9.0%之间，即使在8-16个隐式token的易崩设置下也能保持稳定[3][22] - **推理零额外开销**：辅助解码器训练后即丢弃，推理效率与其他隐式方法一致，并相对显式CoT仍有速度优势[3][21] - **首次实现隐式超越显式**：在GPT-2上，SIM-CoT的准确率首次超过了监督训练的显式CoT方法（SFT-CoT）[18] - **潜在可解释性**：该方法使得隐式推理首次变得可解释，能够将每个latent token解码为人类可读的中间推理步骤[2]