Workflow
潜空间推理
icon
搜索文档
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
量子位· 2025-07-16 09:49
作者表示,这一框架还将有助于未来的路线探索,例如研究通过扩散模型进行无限深度推理等高级范式。 这篇综述共同一作有四人,其中字节SEED实习生、加州大学圣克鲁兹分校博士生 Ruijie Zhu 同时是通讯作者。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型在潜空间中推理, 带宽能达到普通 (显式) 思维链 (CoT) 的2700多倍 ? 史上首篇潜空间推理综述,对这种新兴的推理范式进行了全面总结。 这篇综述当中,作者分析了循环、递归、连续思维等潜空间推理的形式,并将这些方法总结成了一个框架。 这个统一框架不是强行整合,而是 建立在机械可解释性的基础之上,能够与模型的内部运作进行联系 。 什么是潜空间推理? 潜空间推理是一个新兴领域,其思想最早可以追溯到ICLR 2019上阿姆斯特丹大学学者 Mostafa Dehghani 与谷歌大脑和DeepMind (后两 者当时处于独立状态) 共同发表的 《Universal Transformers》 。 这篇文章引入了自适应计算时间(ACT)机制,首次实现了层级间的动态递归,为后续的潜空间推理研究奠定了基础。 | Mostafa Dehghani*† ...
草稿链代替思维链,推理token砍掉80%,显著降低算力成本和延迟
量子位· 2025-03-10 11:29
核心观点 - Zoom团队提出的"草稿链"(CoD)方法可替代传统思维链(CoT),显著降低推理token使用量80%-90%,同时保持准确率基本不变,某些任务中准确率甚至提升[1][2][8] - 该方法受人类解题过程启发,通过生成简洁、信息密集的中间token作为草稿,无需修改模型结构或训练流程,仅需更新提示词示例即可实现[3][4] - 在闭源黑盒模型上具有应用优势,相比"连续潜空间推理"等方法保留了可解释性[5] 技术原理 - 草稿链要求模型为每个推理步骤生成简洁且信息密集的token,类似人类解题时只记录关键中间结果[3][4] - 实现简单,无需模型微调或强化学习,仅需在提示词中更新示例,相关代码和数据已开源[4] 成本效益 - 相比思维链减少70%-90%的token使用量,直接降低推理成本[7] - 企业每月处理100万次推理请求时,成本从3800美元降至760美元,节省超3000美元[6][7] - 规模化应用后成本优势更显著,支持企业处理海量AI查询而不产生过高费用[7] 实验验证 算术推理(GSM8k数据集) - GPT-4o标准提示准确率53.3%,思维链提升至95.4%,草稿链保持91.1%[8][11] - Claude 3.5 Sonnet标准提示准确率64.6%,思维链提升至95.8%,草稿链保持91.4%[8][11] - 草稿链将token使用量从约200个/响应降至约40个,减少80%[9] - GPT-4o延迟降低76.2%,Claude 3.5 Sonnet延迟降低48.4%[10][11] 常识推理 - 日期理解任务中,Claude 3.5 Sonnet使用草稿链准确率从87.0%(思维链)提升至89.7%[12][13] - 运动理解任务中,GPT-4o草稿链准确率达98.3%,优于思维链的95.9%[13] 符号推理(抛硬币任务) - 草稿链在保持100%准确率的同时,GPT-4o token使用量从52.4个降至16.8个,延迟从1.4秒降至0.8秒[14][15] - Claude 3.5 Sonnet token使用量从135.3个降至18.9个,延迟从3.1秒降至1.6秒[15] 局限性 - 零样本设置下有效性显著下降,GPT-4o准确率从94.8%(思维链)降至84.4%,Claude 3.5 Sonnet从90.4%降至65.5%[16][17] - 参数量小于30亿的小模型上,与思维链性能差距更大[18] - 推测因训练数据缺乏草稿链风格推理模式,需few-shot样本指导才能生成有效草稿[19]