Workflow
马尔可夫式思考
icon
搜索文档
算力成本大降,马尔可夫思考机来了,LLM推理成本直接降为线性
36氪· 2025-10-10 15:27
核心观点 - 提出一种名为“马尔可夫式思考机”的新范式,通过重构强化学习环境,将思考长度与上下文大小解耦,从而显著降低大语言模型进行长链推理时的计算成本 [1][4] - 新方法Delethink将推理过程组织成固定大小的区块,使得计算量和内存需求随思考长度呈线性增长,而非传统方法的二次级增长 [4][6] - 实验证明该方法在多项基准测试中有效,能以更低的计算成本实现更长、更高效的推理 [9][14][15] 技术原理 - 传统LongCoT方法会无限制地拼接推理token,导致状态大小和计算量面临二次级增长 [1][4] - Delethink范式将思维过程分块,在每个区块边界重置上下文,迫使策略学会跨区块推进思考,维持固定大小的有效状态 [4] - 经过设计,Delethink在生成和反向传播两个阶段都是线性scaling,而LongCoT是二次级 [6] 性能表现 - 使用Delethink训练的DeepSeek R1-Distill 1.5B模型能以8K区块思考24K token,在数学基准上达到并超过LongCoT-RL [9] - 在测试时扩展方面,Delethink在LongCoT-RL性能饱和时仍能持续提升 [12] - 训练R1-Distill 1.5B模型思考长达96K token,在AIME'24上达到49%准确度,解题过程平均长度36K token [14] - 对于平均94K的思考长度,LongCoT-RL训练需27个H100-月,而Delethink仅需7个H100-月,计算效率提升显著 [15] 模型兼容性与可扩展性 - R1-Distill系列模型在强化学习初始化阶段已能零采样出马尔可夫式轨迹,为训练提供有利起点 [17] - 该方法与参数量高达120B的先进推理模型兼容,并在多个领域表现出稳健的马尔可夫式思考能力 [19] - 成功表明思考长度与上下文大小解耦原则上可支持数百万token的思考,并凸显非二次级复杂度架构的潜力 [20]
算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性
机器之心· 2025-10-10 14:36
文章核心观点 - 提出一种名为马尔可夫式思考机(Markovian Thinker)的新范式,通过Delethink方法将推理LLM的思考过程重构为分块的马尔可夫过程,从而解决长思维链导致的二次级计算量增长问题 [3][9][10] - 该方法使模型思考长度与上下文大小解耦,实现线性计算复杂度和恒定内存消耗,显著降低训练成本并支持更长思考 [9][16][26] - 实验证明Delethink在多项基准测试中优于传统LongCoT方法,且具备与前沿大模型兼容的可扩展性 [20][23][30] 技术原理与设计 - 核心创新是将强化学习环境重构为固定大小区块(chunk)的序列生成过程,每个区块边界重置上下文,迫使策略维持文本状态跨区块推进思考 [10][12][13] - 与传统LongCoT环境相比,Delethink状态大小有界,避免注意力机制计算量随思考长度呈二次增长 [9][14][16] - 伪代码显示训练过程中生成和反向传播阶段均为线性缩放,而LongCoT为二次级缩放 [15][16][17] 性能与效率提升 - 使用Delethink训练的DeepSeek R1-Distill 1.5B模型以8K区块思考24K token时,数学基准测试表现超越LongCoT-RL [20] - 扩展至96K token思考长度后,在AIME'24达到49%准确度,解题过程平均长度36K token [23] - 计算效率显著提升:对于平均94K思考长度,LongCoT-RL需27个H100-月训练资源,Delethink仅需7个H100-月,节约74%资源 [26] 兼容性与可扩展性 - R1-Distill系列模型(1.5B-14B)在零样本情况下已能采样马尔可夫式轨迹,为强化学习提供有利初始化起点 [28] - GPT-OSS 120B模型在博士水平问题等多领域展现稳健的马尔可夫思考能力,证明方法与先进模型兼容 [30][31] - 方法支持非二次复杂度序列架构,为下一代推理模型进行数百万token思考提供可能 [32][33]