Workflow
连续思维链(Coconut)
icon
搜索文档
田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理
机器之心· 2025-10-07 11:57
连续思维链(Coconut)核心创新 - 提出将模型推理轨迹保存在连续隐空间中,而非离散的token空间,以解决长思维链带来的高计算成本难题 [1][2] - 关键优势在于模型能在“叠加”状态下进行推理,即可并行保留所有可能的推理路径,而非必须选择单一路径 [3] - 将一类推理任务抽象为有向图可达性问题,并证明一个两层Transformer经O(n)次连续思维解码即可有效解决该问题 [4][5] 叠加态涌现的训练动态 - 理论分析表明,在连续思维训练下,索引匹配logit在温和假设下保持有界,这与传统Transformer分析中logit呈对数增长无界的情况截然不同 [9] - 有界的索引匹配logit能在“探索”与“利用”之间维持动态平衡,使模型能为多条合理路径分配相近权重,自然形成叠加式推理 [10][34] - 实验观察到,一旦叠加态在早期训练阶段涌现,后续阶段能快速复用该机制,展现出长度泛化能力,即使模型未显式训练生成超过两个思维 [22] 实验设置与结果 - 实验使用GPT-2式解码器(两层Transformer,d_model=768, n_heads=8),从零开始训练,优化器为AdamW,学习率固定为1×10⁻⁴,全局batch size为256 [13] - 采用多阶段训练策略共350个epoch,最终模型在测试集上的准确度达到96.2% [14][15] - 在思维生成阶段,模型学会关注“前沿边”,logit差值在约125个epoch后稳定于60附近,与理论预测一致 [19] - 在答案预测阶段,残差信号和候选提升信号均迅速上升并在约5个epoch后趋于稳定,确保正确候选的logit最高 [27][29]