Workflow
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
量子位·2025-07-25 15:59

大模型推理能力 - 大模型推理指大语言模型在给出最终答案前的中间思考步骤,这种推理过程与人类思维无关,关键在于生成大量中间内容[5][9] - 有推理过程的回答会先分解问题并逐步推导(如拆分单词找字母),而非直接输出结果,这显著提升答案准确性(数学题正确率从随机猜测提升至逐步推导)[8][15][17] - 中间步骤使复杂问题可解:对于布尔电路规模T的问题,生成O(T)中间步骤后固定大小的Transformer即可解决,否则需极深模型或无法处理[11][12] 推理能力提升机制 - 思维链(CoT)赋能:引入CoT后无需扩展模型规模即可让Transformer解决任何问题,理论上可模拟多项式大小电路的计算,缩小与图灵机差距[12][13] - 解码方式优化:通过CoT-decoding从top-k解码路径中选择含推理且置信度高的路径,效果接近指令微调模型[25][26] - 监督微调改进:采用自我改进(模型自生成步骤纠错)和强化学习微调(验证器引导生成正确答案),后者成为当前最强推理引出方法[27][28][29][31] 前沿方法与未来方向 - 聚合与检索方法:通过边缘化自一致性(高频答案筛选)、通用自一致性(模型自主选择)及检索+推理(先回忆相关知识再解题)提升效果[40] - 未来突破方向:解决非唯一可验证答案任务(如开放式问题),构建实际应用而非仅优化基准测试[35][40] 核心研究背景 - 理论奠基:Denny Zhou与马腾宇等证明足够长思维链可使Transformer解决所有问题,其论文《Chain of Thought Empowers Transformers...》奠定领域基础[2][12][31] - 技术应用:Google DeepMind推理团队通过思维链、自洽性、任务分解等方向推动AGI发展,目标实现完美泛化[37]