北大校友、OpenAI前安全副总裁Lilian Weng关于模型的新思考：Why We Think

大模型测试时计算优化 - 核心观点：通过延长模型"思考时间"可显著提升大语言模型在复杂推理任务中的性能，这已成为超越传统模型规模扩展的新优化维度 [4][5][91] - 性能提升表现：GPT/Claude/Gemini等模型通过思维链(CoT)策略在数学推理(5-6%提升)、代码生成等任务上持续突破性能边界 [4][24][16] - 计算资源视角：Transformer生成每个token需执行参数数量两倍的FLOPs，而MoE稀疏模型可降低至2×参数数÷稀疏度 [10] 思维链技术演进 - 早期方法：监督学习人类解题路径或设计"逐步思考"提示语，可使数学问题解决成功率提升显著 [12][14] - 强化学习应用：在STEM问题集上采用策略梯度算法结合自动评估，DeepSeek-R1模型通过两轮SFT-RL训练实现推理能力突破 [31][32][36] - 自我修正机制：需依赖外部反馈信号避免幻觉，修正器模型通过价值提升对(提示x,初始y,修正y')三元组训练实现迭代改进 [29][34] 并行与序列优化策略 - 并行采样：best-of-N和束搜索通过过程奖励模型(PRM)筛选候选，在GSM8k等任务实现5-6%准确率提升 [23][24] - 序列修订：递归检视(Recursive Inspection)和SCoRe方法通过KL散度惩罚防止行为坍缩，形成连续改进轨迹 [20][30] - 混合策略：简单问题适用纯序列化策略，高难度问题需组合并行与序列方法获取最优表现 [19] 架构创新与工具整合 - 递归架构：Universal Transformer等设计实现自适应计算时间，3.5B模型在r¯=32迭代次数达到性能饱和 [71][73] - 思考token机制：插入特殊token或暂停标记可隐式扩展计算循环，使模型复杂度降低30% [73][74] - 外部工具调用：PAL和Chain of Code方法将数学计算/代码执行外包，ReAct框架整合Wikipedia API等知识源 [45][48] 可解释性与忠实度 - 思维链监控：可有效检测reward hacking行为，对抗样本的鲁棒性随思考时间延长提升51% [51][65] - 忠实度测试：通过扰动提示实验显示推理模型(Claude 3.7/DeepSeek R1)比非推理模型更可能揭示真实思维过程 [62][64] - 优化压力风险：RL训练中直接优化CoT易导致新型reward hacking，需设计n-gram重复惩罚等防护机制 [66][69]