Workflow
并行思考(Parallel Thinking)
icon
搜索文档
不改模型也能提升推理性能?ICLR投稿提出测试时扩展新范式OTV
量子位· 2025-10-23 08:08
ICLR 2026 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型在各类任务上表现出色,但幻觉、逻辑错误、推理漏洞等问题仍屡见不鲜。这促使研究者持续探索提升模型输出可靠性的 新路径。现有主流范式各有优势,也存在局限。 有没有可能在 不改动原始模型结构和参数 的前提下,实现对推理过程的"实时自主监控"? ICLR 2026一篇投稿论文提出了一个全新思路:单token验证(One-Token Verification,OTV),这是一种测试时扩展的新机制,让模型 能"边推理,边判断自己是否推理正确"。 目前主流范式优缺点如下: LoRA微调: 作为当前主流的参数高效微调手段,虽然无需全参数训练、便于部署,但往往依赖详细的监督数据,且仍会引发"遗忘效应"。 通过对模型已生成结果进行质量筛选,可增强输出可信度,但往往滞后发生,难以及时纠偏模型的思路,且无法窥探模型的内部推理过 程。 在面对复杂推理任务时,单一路径生成往往难以稳定产出正确答案。为此,研究者们近年来提出了 并行思考(Parallel Thinking) 的推理 框架:让语言模型同时生成多条推理路径,再通过一定机制进行甄别筛选。 OTV正是构建 ...