链式思维提示

搜索文档
大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
机器之心· 2025-08-16 13:02
大语言模型(LLM)推理机制 - LLM中的推理定义为在输出最终答案前生成一系列中间token,其核心在于通过中间token增强模型能力而无需扩展模型规模 [6][15] - Transformer模型通过生成中间token可解决布尔电路理论框架下的复杂问题,逻辑电路规模决定解决能力上限(逻辑门数量可达数万亿) [17] - 标准贪婪解码会抑制推理能力输出,需采用链式推理解码(生成多候选答案并筛选高置信度结果)或提示工程(如"逐步思考"指令)触发推理 [22][23][27] 推理优化方法演进 - 监督微调(SFT)依赖人工标注问题与解决方案数据,但泛化能力有限,需依赖数据规模扩展 [29][33][36] - 自我提升方法利用模型生成解决方案数据(Reject Sampling),通过迭代优化降低人工标注成本,如STaR论文提出的自举推理框架 [39][40] - 强化学习微调(RL finetuning)成为当前最优方法,直接优化生成质量指标,谷歌、OpenAI等多团队独立验证其有效性 [42][43][49] 关键技术突破方向 - 多响应聚合策略显著提升推理准确率,通过边缘化方法选择高频答案(如生成10个响应取众数) [60] - 检索增强推理结合外部知识库,解决模型固有知识盲区(如坐标计算需先检索距离公式) [62][63] - 模型组合技术并行运行多个模型对比输出,类似AlphaGo的集成学习思路 [62] 行业应用与未来趋势 - Gemini 2.0展示符号推理能力,通过乘法分解解决数字组合问题(如2025=45×45),体现类人推理过程 [51] - 工业界更关注实际性能而非学术争论,检索与推理结合已应用于代码生成、写作等复杂任务 [62][65] - 未来研究将聚焦非确定性答案任务(如创意生成),推动基准测试向真实场景迁移 [66][68] 学术资源与课程 - 斯坦福CS25课程汇聚Geoffrey Hinton等顶尖学者,YouTube播放量达数百万,涵盖GPT到机器人应用前沿 [9][10] - Denny Zhou论文引用超83,000次,主导语言建模大会(CoLM 2024),研究涵盖链式思考提示与自一致性算法 [8]