思考忠实性 - 财报，业绩电话会，研报，新闻 - Reportify

思考忠实性

搜索文档

5分钟读懂Lilian Weng万字长文：大模型是怎么思考的？

虎嗅· 2025-05-22 17:54

大模型思考机制 - 从心理学角度类比人类思考系统1（直觉快速）和系统2（分析缓慢） LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链（CoT）技术演进：从模仿人类推理到强化学习自动优化模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例：DeepSeek R1采用并行采样（best-of-N）与顺序改进（反思修正）双路径训练纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题：专用推理模型（如Claude 3.7 Sonnet）比通用模型更易展示真实思考链但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡：当前阶段增加test-time计算量优于单纯扩参但受限于基础模型潜力天花板 [26][27] - 架构创新方向：动态深度RNN 改进型Transformer 思考token插入潜变量建模等28] 开放研究问题 - 强化学习激励机制设计：需兼顾人类可读性思考真实性反reward hacking三重目标 [29] - 能力迁移路径：如何将推理模型性能提升蒸馏回基础模型实现技术代际传承 [31] - 自适应思考机制：建立问题难度与思考时间的动态匹配算法 [31]

大模型思考

外部工具使用

test-time compute

思考忠实性

大模型思考

外部工具使用

test-time compute

思考忠实性