大语言模型测试时扩展策略研究成果 - 财报，业绩电话会，研报，新闻

大语言模型测试时扩展策略研究成果

搜索文档

机器之心· 2025-12-10 18:30

文章核心观点 - 大语言模型在推理阶段的测试时扩展并非简单的算力堆砌，其效果高度依赖于模型自身的“视界”属性，没有一种策略是普遍最佳的[1][4][11] - 微软的研究通过大规模实验，将模型划分为“短视界”和“长视界”两大阵营，并基于此提出了针对不同模型类型、问题难度和计算预算的实用TTS策略配方[2][26][38] - 研究颠覆了“让模型多想一会儿总是更好”的直觉，发现对于“短视界”模型，增加计算（如增大束搜索的束大小N）可能有害，而多数投票或其变体在多数情况下是性价比最高的选择[16][20][48] 测试时扩展方法简介 - TTS策略主要分为并行、序列、混合/元方法以及内部计算机制四大类[4] - **并行扩展策略**：通过聚合多个独立推理路径的答案来提升性能，例如Self-consistency、Best-of-n采样和利用早停机制的Short-m@k[8] - **序列扩展策略**：通过迭代式修正、重启或回溯来扩展推理深度，例如思维链、思维树、思维图以及AlphaGeometry的符号证明搜索[9] - **混合扩展策略**：融合并行与序列两个维度，使用元调度器根据任务难度动态选择策略，例如Meta-Reasoner、AgentTTS和PEARL[10] 研究实验设计 - 研究系统性涵盖了从7B到235B参数量的8个开源大语言模型[5] - 在4个推理数据集上生成了超过300亿个token进行测试[5] - 重点分析的算法包括最先完成搜索、最后完成搜索和束搜索[11] 关键研究发现：束搜索的逆扩展现象 - 对于“短视界”和“非推理”模型家族，束搜索表现出逆扩展模式，即随着束大小N的增加，性能单调下降[16] - 例如R1和QwQ-32B模型，当束大小N超过2时，准确率急剧下降[20] - 这意味着对某些模型增加束搜索的计算量不仅是浪费，甚至有害[20] 关键研究发现：模型视界划分与路径长度偏好 - 根据推理路径长度与答案质量的关系，模型被清晰划分为两大阵营[26] - **短视界模型**（如R1, QwQ-32B, DAPO-32B）：更短的推理路径总是比更长的路径更可能是正确的，长路径可能意味着无效循环或错误[26][31] - **长视界模型**（如Qwen3-32B, GPT-OSS-120B）：在简单问题上偏好短路径，在困难问题上则偏好长路径，展现出更强的适应性[28][29][31] 预算与策略的博弈分析 - 对于最后完成搜索系列方法，在给定总计算量下，最大性能总是在k=N（即退化为多数投票）时实现[32] - 对于短视界模型，较大的N值总是最好的，应采样大量样本并选出最短的一批进行投票[34] - 对于长视界模型，存在权衡：高计算预算换取高性能需选择较小的N（简单解码），而在非推理模型上则相反[35] - 最佳TTS策略需要随着计算预算的增加而动态扩展[36] 实用TTS策略配方 - 基于海量实验数据，研究总结出一套针对不同模型家族、问题难度和计算预算的决策矩阵[38] - **短视界模型**：低预算时，使用FFS-k@N且设定k=1（即挑最短答案）；高预算时，使用MV@N（即多数投票）且N尽可能大[41][42][43][44] - **长视界模型**：低预算时，使用简单解码；高预算时，使用大N的MV@N[41][53] - **核心结论**：对于绝大多数情况，多数投票或其变体是性价比最高的选择，尤其对于短视界模型，应避免让其“长考”，而从大量快速回答中投票筛选共识[48]

微软(US:MSFT)

大语言模型测试时扩展（Test-time scaling

TTS）

Software

大语言模型测试时扩展策略研究成果

大语言模型测试时扩展（Test-time scaling

TTS）

Software

大语言模型测试时扩展策略研究成果