Workflow
test-time compute
icon
搜索文档
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
虎嗅· 2025-05-22 17:54
大模型思考机制 - 从心理学角度类比人类思考系统1(直觉快速)和系统2(分析缓慢) LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和 神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量 通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链(CoT)技术演进:从模仿人类推理到强化学习自动优化 模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例:DeepSeek R1采用并行采样(best-of-N)与顺序改进(反思修正)双路径训练 纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题:专用推理模型(如Claude 3.7 Sonnet)比通用模型更易展示真实思考链 但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡:当前阶段增加test-time计算量优于单纯扩参 但受限于基础模型潜力天花板 [26][27] - 架构创新方向:动态深度RNN 改进型Transformer 思考token插入 潜变量建模等28] 开放研究问题 - 强化学习激励机制设计:需兼顾人类可读性 思考真实性 反reward hacking三重目标 [29] - 能力迁移路径:如何将推理模型性能提升蒸馏回基础模型 实现技术代际传承 [31] - 自适应思考机制:建立问题难度与思考时间的动态匹配算法 [31]
晚点播客丨OpenAI o1 如何延续 Scaling Law,与硅基流动袁进辉聊 o1 新范式
晚点LatePost· 2024-09-20 23:22
"如果每天和开发者打交道,你不会感觉这个行业停滞或变冷。" 文丨程曼祺 贺乾明 扫描图中右下角二维码,可收听播客。* 这是《晚点聊 LateTalk 的第 80 期节目,欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》 推出的播客节目,在文字报道之外,用音频访谈形式捕捉商业世界变化的潮流和不变的逻辑,与这 其中的人和故事。 OpenAI 发布新模型 o1 后的第二天,我们邀请了硅基流动创始人袁进辉与我们分享了 o1 的技术意义,也讨论了今年 1 月至今,袁进辉观察 到的 AI 开发者社区变化。 o1 的一个重要变化就是增加了分配给推理(inference,即大模型的使用)阶段的算力,推理阶段计算(test-time compute)重要性提升。 而袁进辉今年初创立的硅基流动(SiliconFlow)就是一家做推理加速优化的 AI Infra(中间层软件)公司。他是一位连续创业者,曾在 2017 年创立一流科技(OneFlow),在 2023 年加入王慧文组建的大模型创业公司光年之外,成为联合创始人。(袁进辉的上两段创业故事,可 听 ...