破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%
机器之心·2026-03-07 12:20

核心观点 - 研究团队提出了一种名为Parallel-Probe的Training-Free并行推理控制算法,旨在解决大模型在并行推理(Parallel Thinking)过程中存在的计算资源浪费问题 [2] - 该算法通过系统性分析发现,并行推理并非“算得越多越好”,全局共识常提前稳定,而少数长尾路径却持续占用大量资源,成为效率瓶颈 [2] - Parallel-Probe通过基于共识的早期停止和基于偏差的分支剪枝两大机制,在不牺牲核心准确率的前提下,显著提升了推理效率 [2][13] 技术原理与发现 - 研究通过引入2D Probing技术,系统性刻画了在线并行推理的全局动态性,揭示了三大底层特征 [8] - 特征一:非单调缩放,即准确率并非随算力投入单调增加,而是取决于“宽度”与“深度”的精细平衡 [12] - 特征二:路径长度不均,并行分支的生成长度差异极大,计算资源往往被少数“长尾”路径占据 [12] - 特征三:共识提早稳定,全局共识往往在所有分支结束前就已达成,平均共识达成率仅为0.31 [12] - 现有并行推理方法(如多数投票)的缺陷在于各推理分支彼此独立,即使大部分分支已达成共识,系统仍需等待所有冗余分支完成,导致效率低下 [5] 算法与性能 - Parallel-Probe是一种模型无关、即插即用的方法,可直接适配各种现成的开源或闭源大语言模型 [9][11] - 算法核心机制一:基于共识的早期停止,周期性提取各分支中间结果,一旦探测到全局多数答案在连续几个周期内保持稳定,便终止整组推理 [13] - 算法核心机制二:基于偏差的分支剪枝,实时监控每条路径,对显著偏离当前全局趋势的异常路径进行剔除,将资源集中在更有潜力的路径上 [13] - 实验表明,该算法能显著减少无效计算,将推理延迟降低35.8%,总token成本降低25.8% [2] - 在多个基准测试(AIME24, AIME25, HMMT25)和不同规模的基础模型(Qwen2-0.6B, 1.7B, 4B, 8B)上,Parallel-Probe在性能、成本效率和延迟效率之间建立了更优的平衡点,系统性地优于现有的ESC和SC等基准方法 [14] 基础设施与贡献 - 研究团队推出了名为SCOUT(顺序与并发离线利用测试床)的平台,实现了推理生成与控制策略的解耦,允许开发者在极低开销下模拟各种缩放策略,极大提升了测试效率 [15][16] - 相关代码、论文及Online Judge平台均已开源,可供行业研究使用 [6][16][18]