Workflow
大语言模型测试时扩展策略研究成果
icon
搜索文档
微软发布首个测试时扩展大规模研究,还给出了终极指南
机器之心· 2025-12-10 18:30
文章核心观点 - 大语言模型在推理阶段的测试时扩展并非简单的算力堆砌,其效果高度依赖于模型自身的“视界”属性,没有一种策略是普遍最佳的[1][4][11] - 微软的研究通过大规模实验,将模型划分为“短视界”和“长视界”两大阵营,并基于此提出了针对不同模型类型、问题难度和计算预算的实用TTS策略配方[2][26][38] - 研究颠覆了“让模型多想一会儿总是更好”的直觉,发现对于“短视界”模型,增加计算(如增大束搜索的束大小N)可能有害,而多数投票或其变体在多数情况下是性价比最高的选择[16][20][48] 测试时扩展方法简介 - TTS策略主要分为并行、序列、混合/元方法以及内部计算机制四大类[4] - **并行扩展策略**:通过聚合多个独立推理路径的答案来提升性能,例如Self-consistency、Best-of-n采样和利用早停机制的Short-m@k[8] - **序列扩展策略**:通过迭代式修正、重启或回溯来扩展推理深度,例如思维链、思维树、思维图以及AlphaGeometry的符号证明搜索[9] - **混合扩展策略**:融合并行与序列两个维度,使用元调度器根据任务难度动态选择策略,例如Meta-Reasoner、AgentTTS和PEARL[10] 研究实验设计 - 研究系统性涵盖了从7B到235B参数量的8个开源大语言模型[5] - 在4个推理数据集上生成了超过300亿个token进行测试[5] - 重点分析的算法包括最先完成搜索、最后完成搜索和束搜索[11] 关键研究发现:束搜索的逆扩展现象 - 对于“短视界”和“非推理”模型家族,束搜索表现出逆扩展模式,即随着束大小N的增加,性能单调下降[16] - 例如R1和QwQ-32B模型,当束大小N超过2时,准确率急剧下降[20] - 这意味着对某些模型增加束搜索的计算量不仅是浪费,甚至有害[20] 关键研究发现:模型视界划分与路径长度偏好 - 根据推理路径长度与答案质量的关系,模型被清晰划分为两大阵营[26] - **短视界模型**(如R1, QwQ-32B, DAPO-32B):更短的推理路径总是比更长的路径更可能是正确的,长路径可能意味着无效循环或错误[26][31] - **长视界模型**(如Qwen3-32B, GPT-OSS-120B):在简单问题上偏好短路径,在困难问题上则偏好长路径,展现出更强的适应性[28][29][31] 预算与策略的博弈分析 - 对于最后完成搜索系列方法,在给定总计算量下,最大性能总是在k=N(即退化为多数投票)时实现[32] - 对于短视界模型,较大的N值总是最好的,应采样大量样本并选出最短的一批进行投票[34] - 对于长视界模型,存在权衡:高计算预算换取高性能需选择较小的N(简单解码),而在非推理模型上则相反[35] - 最佳TTS策略需要随着计算预算的增加而动态扩展[36] 实用TTS策略配方 - 基于海量实验数据,研究总结出一套针对不同模型家族、问题难度和计算预算的决策矩阵[38] - **短视界模型**:低预算时,使用FFS-k@N且设定k=1(即挑最短答案);高预算时,使用MV@N(即多数投票)且N尽可能大[41][42][43][44] - **长视界模型**:低预算时,使用简单解码;高预算时,使用大N的MV@N[41][53] - **核心结论**:对于绝大多数情况,多数投票或其变体是性价比最高的选择,尤其对于短视界模型,应避免让其“长考”,而从大量快速回答中投票筛选共识[48]