斯坦福大模型推理课免费了，谷歌推理团队创始人主讲

大模型推理能力 - 大模型推理指大语言模型在给出最终答案前的中间思考步骤，这种推理过程与人类思维无关，关键在于生成大量中间内容[5][9] - 有推理过程的回答会先分解问题并逐步推导（如拆分单词找字母），而非直接输出结果，这显著提升答案准确性（数学题正确率从随机猜测提升至逐步推导）[8][15][17] - 中间步骤使复杂问题可解：对于布尔电路规模T的问题，生成O(T)中间步骤后固定大小的Transformer即可解决，否则需极深模型或无法处理[11][12] 推理能力提升机制 - 思维链（CoT）赋能：引入CoT后无需扩展模型规模即可让Transformer解决任何问题，理论上可模拟多项式大小电路的计算，缩小与图灵机差距[12][13] - 解码方式优化：通过CoT-decoding从top-k解码路径中选择含推理且置信度高的路径，效果接近指令微调模型[25][26] - 监督微调改进：采用自我改进（模型自生成步骤纠错）和强化学习微调（验证器引导生成正确答案），后者成为当前最强推理引出方法[27][28][29][31] 前沿方法与未来方向 - 聚合与检索方法：通过边缘化自一致性（高频答案筛选）、通用自一致性（模型自主选择）及检索+推理（先回忆相关知识再解题）提升效果[40] - 未来突破方向：解决非唯一可验证答案任务（如开放式问题），构建实际应用而非仅优化基准测试[35][40] 核心研究背景 - 理论奠基：Denny Zhou与马腾宇等证明足够长思维链可使Transformer解决所有问题，其论文《Chain of Thought Empowers Transformers...》奠定领域基础[2][12][31] - 技术应用：Google DeepMind推理团队通过思维链、自洽性、任务分解等方向推动AGI发展，目标实现完美泛化[37]