有人把 Claude Mythos 的架构逆向出来了

文章核心观点 - 开源项目 OpenMythos 对 Anthropic 的 Claude Mythos 模型架构进行了推测性重建，其核心主张是 Claude Mythos 很可能是一个“循环深度变换器”架构 [5] - 该架构的核心特点是使用“循环块”和相同的权重进行多次循环计算，而非增加参数或层数，以此实现更深的推理深度和系统性泛化能力，并可能结合 MoE 技术来扩展知识广度 [6][8][20] - 这种架构在理论上能实现“隐式的链式思维”，在潜在空间内并行探索推理路径，并通过动态调整循环次数来优化计算效率，从而可能用更少的参数达到与传统大模型相当甚至更优的效果 [12][23][24] 模型架构推测 - 核心架构：循环深度变换器 (RDT)：模型并非堆叠更多不同参数的层，而是将中间的一个“循环块”使用完全相同的权重重复运行 T 次，以此扩展推理深度 [6] - 三段式结构：OpenMythos 实现的架构分为三部分：Prelude（标准 Transformer 层，运行一次）、Recurrent Block（循环块，运行 T 次）、Coda（解码输出）[11][13] - 循环机制关键细节：在每次循环中都会重新注入由 Prelude 编码的原始输入，以防止隐藏状态在多次循环后偏离原始问题 [11] - 可能的宽度扩展：MoE集成：推测循环块中的每个前馈网络层可能是稀疏的混合专家系统，每次循环可能激活不同的专家子集，结合循环提供的深度，共同提升模型能力 [20] 技术优势与特性 - 系统性泛化能力：在训练分布之外的新组合问题上，模型不会像传统 Transformer 那样逐渐退化，而是可能在某个节点“突然”掌握，表现出三阶段的“顿悟”现象 [8] - 深度外推能力：在更长推理链（如10跳）上的测试中，循环 Transformer 可能成功，而标准 Transformer 会失败，这对应了 Mythos 处理多步推理时无需显式思维链的观察 [9] - 隐式链式思维：每次循环等价于思维链的一步，但发生在连续的潜在空间内，不输出中间 token，允许模型并行探索多条推理路径并逐渐收敛 [12] - 参数效率：研究表明，一个 770M 参数的循环模型，可以达到 1.3B 参数固定深度模型同等的下游任务质量，参数量减少约 40% [7][23] 工程挑战与解决方案 - 训练稳定性：循环深度变换器训练极不稳定，存在残差爆炸和损失突刺的风险 [14] - 稳定性解决方案：采用 Parcae 研究的方法，通过将谱半径 ρ(A) < 1 的约束直接设计进参数化中（如使用负对角矩阵和 ZOH 离散化方案）来确保系统稳定 [15][17] - 过度思考问题：循环次数并非越多越好，超过一定深度可能导致性能下降 [21] - 自适应停机机制：推测模型可能集成类似“自适应计算时间”的机制，让模型动态决定每个位置所需的循环次数，对简单 token 早停，对复杂 token 多循环，以优化计算 [22] 规模律与影响 - 新的规模律：研究指出，在固定的计算预算和参数量下，增加平均循环次数并减少训练 token 数量，可能比减少循环、增加数据的效果更好 [23] - 推理时规律：更多循环带来质量提升，但收益呈饱和指数衰减，这与思维链的推理规模律相似 [23] - 对行业的影响：该技术路径挑战了“更大模型=更强”的直觉，强调更高效地利用有限参数和动态调整推理计算量，可能提升部署时的吞吐量，对 AI 能力提升路径有重要含义 [24]