文章核心观点 - 提出一种名为马尔可夫式思考机(Markovian Thinker)的新范式,通过Delethink方法将推理LLM的思考过程重构为分块的马尔可夫过程,从而解决长思维链导致的二次级计算量增长问题 [3][9][10] - 该方法使模型思考长度与上下文大小解耦,实现线性计算复杂度和恒定内存消耗,显著降低训练成本并支持更长思考 [9][16][26] - 实验证明Delethink在多项基准测试中优于传统LongCoT方法,且具备与前沿大模型兼容的可扩展性 [20][23][30] 技术原理与设计 - 核心创新是将强化学习环境重构为固定大小区块(chunk)的序列生成过程,每个区块边界重置上下文,迫使策略维持文本状态跨区块推进思考 [10][12][13] - 与传统LongCoT环境相比,Delethink状态大小有界,避免注意力机制计算量随思考长度呈二次增长 [9][14][16] - 伪代码显示训练过程中生成和反向传播阶段均为线性缩放,而LongCoT为二次级缩放 [15][16][17] 性能与效率提升 - 使用Delethink训练的DeepSeek R1-Distill 1.5B模型以8K区块思考24K token时,数学基准测试表现超越LongCoT-RL [20] - 扩展至96K token思考长度后,在AIME'24达到49%准确度,解题过程平均长度36K token [23] - 计算效率显著提升:对于平均94K思考长度,LongCoT-RL需27个H100-月训练资源,Delethink仅需7个H100-月,节约74%资源 [26] 兼容性与可扩展性 - R1-Distill系列模型(1.5B-14B)在零样本情况下已能采样马尔可夫式轨迹,为强化学习提供有利初始化起点 [28] - GPT-OSS 120B模型在博士水平问题等多领域展现稳健的马尔可夫思考能力,证明方法与先进模型兼容 [30][31] - 方法支持非二次复杂度序列架构,为下一代推理模型进行数百万token思考提供可能 [32][33]
算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性
机器之心·2025-10-10 14:36