交替「推理 - 擦除」范式

搜索文档

ICML 2025 | 大模型深度思考新范式：交替「推理-擦除」解决所有可计算问题

机器之心· 2025-05-15 14:04

核心观点 - 提出新型深度思考范式PENCIL，通过交替执行「生成-擦除」机制显著提升大模型复杂推理能力 [1][3] - PENCIL在理论上实现图灵完备性，能以最优空间O(S)和时间O(T)复杂度解决所有可计算问题，传统CoT需O(T)空间导致指数爆炸 [23][24] - 实验显示PENCIL在3-SAT、QBF等NP完全问题上准确率保持≥99%，Einstein's Puzzle任务中25M小模型准确率达97%远超CoT的25% [15][21][22] 交替生成-擦除范式 - 动态擦除机制：引入[CALL][SEP][RETURN]特殊标记，按规则丢弃无用中间结果，上下文长度从数万token压缩至千级 [5][8][9] - 支持递归结构：擦除后的上下文可包含其他特殊标记，实现类似函数调用的多层嵌套 [9] - 三大应用模式：任务分解（子问题处理）、搜索回溯（无效路径清理）、摘要总结（冗长思考压缩） [13] 性能优势 - **准确率**：在n=10的SAT任务中PENCIL准确率99% vs CoT 50%，QBF任务100% vs 73% [15][16] - **计算效率**：相同FLOPs下PENCIL训练收敛速度更快，上下文长度控制在问题规模n的线性增长（O(n)）而非CoT的指数级（O(exp(n))） [12][17] - **资源节省**：KV缓存复用机制使自注意力计算量减少，25M参数模型在Einstein's Puzzle上准确率提升3.88倍 [21][22] 理论突破 - 空间最优性：将图灵机模拟的上下文长度从O(T)降至O(S)，尤其适合S<<T的NP完全问题（如旅行商问题） [24][25] - 实现路径：通过FASP编程语言构造「思考-总结」循环，证明固定大小Transformer可达成最优复杂度 [28] - 本质差异：传统CoT需保留完整计算历史，PENCIL通过状态摘要实现内存回收 [27]

交替「推理 - 擦除」范式

深度思考

图灵完备

Artificial Intelligence

Artificial Intelligence

PENCIL

CoT