核心观点 - 提出一种名为“马尔可夫式思考机”的新范式,通过重构强化学习环境,将思考长度与上下文大小解耦,从而显著降低大语言模型进行长链推理时的计算成本 [1][4] - 新方法Delethink将推理过程组织成固定大小的区块,使得计算量和内存需求随思考长度呈线性增长,而非传统方法的二次级增长 [4][6] - 实验证明该方法在多项基准测试中有效,能以更低的计算成本实现更长、更高效的推理 [9][14][15] 技术原理 - 传统LongCoT方法会无限制地拼接推理token,导致状态大小和计算量面临二次级增长 [1][4] - Delethink范式将思维过程分块,在每个区块边界重置上下文,迫使策略学会跨区块推进思考,维持固定大小的有效状态 [4] - 经过设计,Delethink在生成和反向传播两个阶段都是线性scaling,而LongCoT是二次级 [6] 性能表现 - 使用Delethink训练的DeepSeek R1-Distill 1.5B模型能以8K区块思考24K token,在数学基准上达到并超过LongCoT-RL [9] - 在测试时扩展方面,Delethink在LongCoT-RL性能饱和时仍能持续提升 [12] - 训练R1-Distill 1.5B模型思考长达96K token,在AIME'24上达到49%准确度,解题过程平均长度36K token [14] - 对于平均94K的思考长度,LongCoT-RL训练需27个H100-月,而Delethink仅需7个H100-月,计算效率提升显著 [15] 模型兼容性与可扩展性 - R1-Distill系列模型在强化学习初始化阶段已能零采样出马尔可夫式轨迹,为训练提供有利起点 [17] - 该方法与参数量高达120B的先进推理模型兼容,并在多个领域表现出稳健的马尔可夫式思考能力 [19] - 成功表明思考长度与上下文大小解耦原则上可支持数百万token的思考,并凸显非二次级复杂度架构的潜力 [20]
算力成本大降,马尔可夫思考机来了,LLM推理成本直接降为线性
36氪·2025-10-10 15:27