多模型协同进化突破单模型天花板？Squeeze Evolve：无需验证器实现推理新SOTA

研究背景与核心问题 - 单个大语言模型存在能力天花板，增加推理预算、生成更多候选答案等方法会导致答案种群收敛并停滞不前，因为模型只是在重复相同的先验知识、失败模式和盲点[6] - 在许多重要领域（如等离子体模拟、湿实验室实验、开放式数学推理等），获取外部验证的成本过高、速度过慢或根本不可用，因此需要“无验证器进化”[9] - 无验证器进化面临根本性问题：单模型种群会崩溃，模型会放大已知轨迹，丢弃少量正确方案，导致多样性丧失并陷入狭窄解空间，瓶颈在于多样性而非算力[10][11] 核心方法与理念 - 提出“Squeeze Evolve”多模型进化框架，核心理念是通过编排具有不同优势、失败模式和推理风格的模型，在无需任何外部验证器的情况下，产生任何单一模型都无法单独实现的能力[7] - 不同模型具有不同的先验知识、训练数据分布和失败模式，它们在同一个进化过程中能够维持单一模型无法独立保持的互补谱系[14] - 多模型编排是能力放大器，而不仅仅是成本工程，一个推理模型可能擅长逻辑推理但在空间推理上不佳，一个指令微调模型可能整体较弱但保留了不同的解决路径，即使小得多的模型也能以不同的方式犯错并做出有意义的贡献[15][16] 关键实证结果 - 初始化主导最终准确性：初始种群（Loop 0）的质量是最终性能的最强预测因子，在AIME 2025上，反转初始化模型和重组模型的角色会导致准确率下降高达23个百分点，最强模型必须锚定起始种群[20] - 弱模型是强大的聚合器：当候选集已包含正确轨迹时，即使小得多的模型也能有效聚合它们（接近100%准确率），昂贵模型的优势集中在最难、最不确定的组上，在其他地方，便宜模型不仅足够而且充分[20] - 模型置信度预测能力需求：从token对数概率导出的组置信度能够清晰区分包含正确轨迹的组和不包含的组，这个信号在推理过程中产生且无额外成本，适用于不同模型家族，能指导将任务分配给昂贵或便宜模型[20] 实验评估与性能表现 - 数学推理（AIME 2025）：GPT-OSS-20B与GPT-5 mini组合后，以55%的成本（0.50美元/问题 vs 0.89美元/问题）实现了95.4%的准确率，超越了GPT-5 mini单模型的94.2%[19] - 视觉理解（MMMU-Pro）：使用Qwen3.5-35B-A3B和Kimi-2.5-Thinking的组合，以43%的成本（0.46美元/问题 vs 1.04美元/问题）实现了79.06%的准确率，超越了Kimi-2.5-Thinking单模型的78.58%[19][21] - 科学发现（ARC-AGI-V2）：使用Gemini3 3.1 Pro的Squeeze Evolve方法实现了97.5%的准确率，成本为7.74美元/任务，相比单模型RSA基线（93.3%准确率，28.85美元/任务）实现了3.7倍的成本节约和显著的准确率提升[22] - 圆堆积问题：使用开源模型组合（GPT-OSS 120B + 20B）在无需验证器的情况下，效果匹配了基于验证器的闭源AlphaEvolve基线方法（使用Gemini-2.0 Pro + Flash）[22] - 综合成本与吞吐量：在所有8个基准测试上，该方法实现了1.4倍至3.3倍的成本降低，以及4倍至10倍的吞吐量提升[22] 核心洞见与行业意义 - 单个模型的天花板不是模型系统的天花板，通过将测试时扩展方法统一到共同的进化框架中，揭示了根据模型能力边际效用分配进化角色的设计空间[24] - 结果不仅仅是更便宜的推理，而是真正更强的推理，协同进化的模型能够产生它们单独无法产生的解决方案[24] - 这将测试时扩展从“在更大的模型上花更多钱”重新定义为多模型系统优化问题，行业前沿不再仅由单个模型能力推动，而是由如何智能地编排已有模型所推动[25]