思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式
机器之心·2026-01-23 16:29

文章核心观点 - 腾讯内容服务部BAC联合清华大学与北京大学提出了一种名为Render-of-Thought (RoT)的新框架,旨在解决思维链推理中显式方法效率低下和隐式方法不可分析的问题 [3] - RoT框架的核心思想是利用多模态模型的视觉编码器作为“语义锚点”,将文本推理步骤“渲染”为图像的视觉嵌入,从而在压缩推理过程的同时保持其可分析性 [3][4] - 该方法实现了推理速度的显著提升和Token数量的有效压缩,为在资源受限场景下部署强推理模型提供了新的技术路径 [22][37] 技术方案与原理 - RoT是一种将文本思维链通过光学渲染和视觉知识蒸馏转化为紧凑视觉表征的新范式,它直接利用现有VLM中冻结的视觉编码器,实现了即插即用,无需额外的预训练开销 [12] - 为了适应自回归思维链的序列化建模,研究团队采用了单行图像渲染策略,该策略可以根据文本长度动态修改图像宽度,并确保视觉序列与文本顺序自然对齐 [12] - RoT的实现分为两个阶段:第一阶段进行视觉对齐,训练一个轻量级的视觉投影头,将LLM的文本隐状态映射到渲染图像的视觉特征空间;第二阶段进行潜在监督微调,通过LoRA微调LLM,使其自回归地生成连续的潜在视觉Token [14][15][17] 性能与实验结果 - 在推理速度方面,相比于显式CoT,RoT实现了3-4倍的Token压缩率,并在多个基准测试中展现出巨大优势 [22] - 在Qwen3-VL-4B模型上,RoT在GSM8k-Aug数据集上的Pass@1准确率达到37.8%,平均推理长度仅为32个Token,其Pass@1/L指标为1.73,显著优于SFT-CoT的0.73 [23] - 在MultiArith数据集上,RoT (Qwen3-VL-4B) 达到了97.2%的准确率,显著优于同等规模下的其他隐空间推理方案 [23][24] - 在更具挑战性的MATH数据集上,使用固定Token预算策略(64个Token)时,RoT (Qwen3-VL-4B) 的Pass@1准确率达到33.2% [20][36] 关键技术细节与消融实验 - 研究团队探索了两种推理解码策略:基于Special Token的动态终止策略和固定Token预算的静态终止策略,实验发现后者性能更优,动态终止策略可能因连续潜空间中自我调节停止机制的内在不稳定性而导致性能下降 [18][19] - 单行渲染相比传统的固定尺寸多行渲染,收敛更快,且能更好地契合语言模型从左到右的序列生成特性 [33] - 两阶段训练缺一不可,消融实验表明,去除第一阶段(视觉对齐)会导致MATH数据集的准确率从33.2%降至22.2%;排除第二阶段(潜在监督微调)也会导致性能显著下降 [35][36] 技术优势与行业意义 - RoT的一大亮点在于其可分析性,由于隐状态被对齐到了视觉空间,可以通过热力图等工具观察模型的“思考过程”,这为理解大模型的内部隐空间提供了新的窗口 [26] - 该方法打破了文本模态的限制,利用视觉信息的高密度特性来压缩推理过程,大幅提升了推理效率 [37] - 对于未来在端侧设备等资源受限场景下部署强推理模型,RoT提供了一条切实可行的技术路径 [37]