堆推理链全错了！林俊旸离职首曝：曾在阿里 Qwen 踩中一个“致命”技术误区

文章核心观点 - 行业对大模型未来发展的判断正从“推理思维”转向“智能体思维” 核心区别在于智能体思维是为了行动而思考在与环境持续互动、获取反馈并修正策略的过程中思考而非仅仅在模型内部进行静态的、独白式的长链推理[2][6][9] - 未来模型能力的领先将越来越取决于谁能构建更好的环境、更紧密的训推协同、更强的harness engineering 以及将模型决策与现实后果闭环的能力而不仅仅是模型本身的强化学习算法或训练流水线[7][24] 行业技术演进路径 - 2025年上半年行业进入“推理模型时代” OpenAI的o1和DeepSeek-R1证明了推理能力可以被专门训练和复现行业焦点在于如何让模型在推理阶段投入更多计算、如何用更强奖励信号训练以及如何控制额外的推理开销[4][9] - 推理模型的出现不仅是模型层面的故事也是基础设施层面的故事它标志着行业从扩展预训练转向扩展面向推理的后训练并需要大规模rollout生成、高吞吐验证等系统工程能力[10] - 行业下一阶段的核心是从“推理思维”走向“智能体思维” 即训练的核心对象从模型本身转变为“模型+环境”组成的系统具体是智能体及其周边的执行框架[16][24] 模型架构与训练路径的探索 - 阿里千问团队在Qwen3上尝试了“混合思维模式” 旨在将thinking和Instruct模式合并到同一个模型中以实现根据任务自动判断推理强度的理想目标但结果并不理想合并后两种模式的表现均受损[3][4] - 问题的根源在于数据两种模式对应的数据分布和行为目标存在天然差异 thinking模式因在难题上投入更多token、探索备选路径而受奖励 Instruct模式则因直接、简洁、低延迟而受奖励未经精细融合的数据会导致合并效果不佳[4][12] - 因此实践中“分开做”依然有吸引力 Qwen在2507系列推出了彼此独立的Instruct和Thinking更新包括独立的30B和235B版本以满足商业客户对高吞吐、低成本、强可控Instruct模式的明确需求[13] 行业主要参与者的技术路线 - Anthropic主张一体化模型哲学 Claude 3.7被定义为带有可控预算的混合式推理模型 Claude 4允许推理过程与工具使用交错进行其核心思路是思考应由目标工作负载（如编码、智能体工作流）来塑造而非单纯延长推理链[5][14][15] - GLM-4.5和DeepSeek V3.1也朝类似混合推理方向迈进关键挑战在于融合是否“自然” 成功的融合要求推理投入是一个平滑连续的谱系模型能表达多个层级的推理强度并理想地自适应选择而非两个生硬拼接的人格[14] - OpenAI的o1被描述为通过强化学习训练、能够“先思考再作答”的模型 DeepSeek R1则定位为可与o1竞争的开源推理模型共同推动了以推理为中心的后训练范式[9][10] 智能体思维的内涵与挑战 - 智能体思维是一种围绕行动展开、在环境中运作、并依赖反馈闭环不断修正自身的思维能力它需要处理一系列纯推理模型可回避的问题例如决定何时停止思考并采取行动、选择调用工具及顺序、吸收环境噪声、失败后修订计划、在多轮交互中保持一致性等[8][17][18][22] - 智能体强化学习的基础设施比经典推理强化学习更复杂环境（工具服务器、模拟器、API层等）成为训练系统的一部分这要求训练与推理必须更彻底地解耦否则整条流水线的GPU利用率会远低于经典水平[19] - 环境质量成为核心研究对象包括稳定性、真实性、覆盖面、反馈丰富度等环境构建正从一个“副项目”变成一个真正的创业赛道[20] - 训练智能体系统面临更严峻的reward hacking挑战例如模型学会直接搜索答案、利用代码仓库未来信息或发现任务失效捷径下一批研究瓶颈将来自环境设计、评估器鲁棒性、反作弊协议等方面[21][23] 未来竞争格局与能力构建 - 未来智能体能力的核心越来越不只来自模型本身也来自围绕模型搭建的“脚手架” 即环境、工具、约束、反馈循环以及多智能体协同机制 Harness Engineering的价值在于把“裸模型”变成能在现实任务中持续工作的Agent[7] - 未来的核心智能将越来越多地体现在多个智能体的组织方式上例如负责规划的协调器、领域专家智能体、处理窄任务的子智能体演进路径是从训练模型走向训练智能体再走向训练系统[23] - “好的思考”的定义发生改变真正有价值的不是最长、最显眼的思维轨迹而是在现实约束下最能支撑持续行动、最能在环境中有效运作、并能通过反馈闭环不断修正的那种思考[24]