刚刚！北大校友Lilian Weng最新博客来了：Why We Think

大模型测试时计算优化 - 核心观点：通过延长模型"思考时间"（测试时计算）可显著提升大语言模型在复杂推理任务中的性能表现，该方向与人类认知双系统理论高度相关[2][6] - GPT、Claude、Gemini等模型通过思维链(CoT)和测试时计算策略优化，在逻辑推理、长文本理解、数学问题求解等高级认知任务上不断突破性能边界[2] - Transformer生成每个token的计算量约为参数量的2倍，而稀疏模型(MoE)因部分网络激活可降低计算量至2×参数数÷稀疏度[8] 思维链技术演进 - 思维链(CoT)允许模型根据问题难度动态调整计算量，早期通过监督学习人类编写的推理路径实现[13] - 强化学习在可验证答案的数据集(如STEM问题)上应用显著提升CoT性能，近期采用策略梯度算法结合自动评估成为主流方法[14] - 模型规模越大，"思考时间"带来的性能收益越显著，在数学问题上成功率提升明显[16] 并行采样与序列修订 - 并行采样通过生成多个候选序列并用验证器筛选最优解，实现简单但依赖模型单次生成能力[19][26] - 序列修订通过迭代修正输出实现质量提升，需额外控制修订风险如正确答案被错误修改[20] - 实验表明简单问题适合纯序列策略，高难度问题需组合并行与序列方法才能获得最优表现[21] 强化学习应用 - DeepSeek-R1通过两阶段SFT-RL训练在数学/编程任务表现优异，验证纯强化学习可涌现"顿悟时刻"类高级推理能力[42][46] - 推理类RL训练使用格式奖励(特殊token包裹CoT)和准确性奖励(自动验证答案)双重机制[43] - 失败案例显示过程奖励模型易导致奖励欺骗，蒙特卡洛树搜索因token空间过大难以应用[49] 外部工具整合 - PAL和Chain of Code方法通过调用代码解释器处理数学计算/编程任务，扩展模型能力边界[52] - ReAct方法结合Wikipedia API调用与推理轨迹生成，实现外部知识整合[56] - OpenAI o3/o4-mini模型融合网页搜索、代码执行等工具操作，验证计算资源与性能正相关[57] 连续空间思考架构 - 递归架构如Universal Transformer通过自适应计算时间动态调整推理步数[82] - 思考token技术通过插入特殊token为模型争取额外计算时间，在数字推理任务效果显著[85] - Quiet-STaR实现token级推理，通过生成未来文本的合理化解释提升预测质量[89] 测试时计算规模效应 - 测试时计算优化相比参数扩展可能更高效，但对困难问题的弥补能力有限[107] - 思维链长度与评估准确率呈正相关，但简单拒绝采样会导致反向scaling现象[112][113] - 最佳效果出现在推理token远少于预训练token时，表明基础模型能力仍是关键[112]