算力成本大降！马尔可夫思考机来了，LLM推理成本直接降为线性

文章核心观点 - 提出一种名为马尔可夫式思考机（Markovian Thinker）的新范式，通过Delethink方法将推理LLM的思考过程重构为分块的马尔可夫过程，从而解决长思维链导致的二次级计算量增长问题 [3][9][10] - 该方法使模型思考长度与上下文大小解耦，实现线性计算复杂度和恒定内存消耗，显著降低训练成本并支持更长思考 [9][16][26] - 实验证明Delethink在多项基准测试中优于传统LongCoT方法，且具备与前沿大模型兼容的可扩展性 [20][23][30] 技术原理与设计 - 核心创新是将强化学习环境重构为固定大小区块（chunk）的序列生成过程，每个区块边界重置上下文，迫使策略维持文本状态跨区块推进思考 [10][12][13] - 与传统LongCoT环境相比，Delethink状态大小有界，避免注意力机制计算量随思考长度呈二次增长 [9][14][16] - 伪代码显示训练过程中生成和反向传播阶段均为线性缩放，而LongCoT为二次级缩放 [15][16][17] 性能与效率提升 - 使用Delethink训练的DeepSeek R1-Distill 1.5B模型以8K区块思考24K token时，数学基准测试表现超越LongCoT-RL [20] - 扩展至96K token思考长度后，在AIME'24达到49%准确度，解题过程平均长度36K token [23] - 计算效率显著提升：对于平均94K思考长度，LongCoT-RL需27个H100-月训练资源，Delethink仅需7个H100-月，节约74%资源 [26] 兼容性与可扩展性 - R1-Distill系列模型（1.5B-14B）在零样本情况下已能采样马尔可夫式轨迹，为强化学习提供有利初始化起点 [28] - GPT-OSS 120B模型在博士水平问题等多领域展现稳健的马尔可夫思考能力，证明方法与先进模型兼容 [30][31] - 方法支持非二次复杂度序列架构，为下一代推理模型进行数百万token思考提供可能 [32][33]