Workflow
思考忠实性
icon
搜索文档
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
虎嗅· 2025-05-22 17:54
大模型思考机制 - 从心理学角度类比人类思考系统1(直觉快速)和系统2(分析缓慢) LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和 神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量 通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链(CoT)技术演进:从模仿人类推理到强化学习自动优化 模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例:DeepSeek R1采用并行采样(best-of-N)与顺序改进(反思修正)双路径训练 纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题:专用推理模型(如Claude 3.7 Sonnet)比通用模型更易展示真实思考链 但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡:当前阶段增加test-time计算量优于单纯扩参 但受限于基础模型潜力天花板 [26][27] - 架构创新方向:动态深度RNN 改进型Transformer 思考token插入 潜变量建模等28] 开放研究问题 - 强化学习激励机制设计:需兼顾人类可读性 思考真实性 反reward hacking三重目标 [29] - 能力迁移路径:如何将推理模型性能提升蒸馏回基础模型 实现技术代际传承 [31] - 自适应思考机制:建立问题难度与思考时间的动态匹配算法 [31]