翁荔最新万字长文：Why We Think

核心观点 - 通过"测试时计算"（Test-time Compute）和"思维链"（Chain-of-Thought，CoT）技术可显著提升模型性能，突破当前能力瓶颈 [1][2] - 让模型在输出答案前多思考一会儿（如智能解码、思维链推理、潜在思考等方法）能提升智能水平 [2] - 该方法与人类思考方式深度关联，借鉴了心理学中的双系统理论（系统1快速直觉 vs 系统2慢速逻辑） [10][11] 心理学类比 - 人类思考分为系统1（快速直觉但易出错）和系统2（慢速逻辑更理性），模型通过延长思考时间可模拟系统2的深度分析 [10][11] - 数学问题等复杂任务需要系统2思考，模型通过CoT实现类似过程 [10] 计算资源优化 - Transformer模型的计算量约为参数量的2倍，稀疏模型（如MoE）计算量=2*参数/稀疏度 [13] - CoT允许模型根据问题难度动态调整计算量，提升效率 [13] - 测试时计算通过自适应修改推理时的输出分布优化性能 [24] 思维链技术发展 - 早期方法包括监督学习生成中间步骤（如数学题推导）和验证器判断答案正确性 [18] - 强化学习在可验证答案的数据集（如STEM题目）上大幅改进CoT推理能力 [19] - DeepSeek-AI的R1技术报告显示简单策略梯度算法即可实现强劲性能 [20] 并行采样与顺序修订 - 并行采样（如N选1、束搜索）通过多候选筛选提升准确性，但受模型单次生成能力限制 [24][25][29] - 顺序修订通过迭代修正错误，但需依赖外部反馈避免性能下降 [24][37][38] - 两者结合可优化不同难度问题的表现 [24] 强化学习与外部工具整合 - 强化学习（如SCoRe框架）通过多轮次优化实现自我修正 [41] - 外部工具（如代码解释器、知识搜索API）可弥补模型计算或知识短板 [45] - 纯RL无需监督微调即可涌现反思与回溯能力 [45] 架构创新与未来挑战 - 循环架构（如Universal Transformer）动态调整计算步数提升效率 [50] - 显式/隐式标记技术（如暂停标记、Quiet-STaR）可增加计算时间 [50] - 未来需解决奖励破解、无监督自我修正、性能迁移至基础模型等挑战 [50]