文章核心观点 - 行业对大模型未来发展的判断正从“推理思维”转向“智能体思维” 核心区别在于 智能体思维是为了行动而思考 在与环境持续互动、获取反馈并修正策略的过程中思考 而非仅仅在模型内部进行静态的、独白式的长链推理[2][6][9] - 未来模型能力的领先将越来越取决于谁能构建更好的环境、更紧密的训推协同、更强的harness engineering 以及将模型决策与现实后果闭环的能力 而不仅仅是模型本身的强化学习算法或训练流水线[7][24] 行业技术演进路径 - 2025年上半年 行业进入“推理模型时代” OpenAI的o1和DeepSeek-R1证明了推理能力可以被专门训练和复现 行业焦点在于如何让模型在推理阶段投入更多计算、如何用更强奖励信号训练 以及如何控制额外的推理开销[4][9] - 推理模型的出现不仅是模型层面的故事 也是基础设施层面的故事 它标志着行业从扩展预训练转向扩展面向推理的后训练 并需要大规模rollout生成、高吞吐验证等系统工程能力[10] - 行业下一阶段的核心是从“推理思维”走向“智能体思维” 即训练的核心对象从模型本身转变为“模型+环境”组成的系统 具体是智能体及其周边的执行框架[16][24] 模型架构与训练路径的探索 - 阿里千问团队在Qwen3上尝试了“混合思维模式” 旨在将thinking和Instruct模式合并到同一个模型中 以实现根据任务自动判断推理强度的理想目标 但结果并不理想 合并后两种模式的表现均受损[3][4] - 问题的根源在于数据 两种模式对应的数据分布和行为目标存在天然差异 thinking模式因在难题上投入更多token、探索备选路径而受奖励 Instruct模式则因直接、简洁、低延迟而受奖励 未经精细融合的数据会导致合并效果不佳[4][12] - 因此 实践中“分开做”依然有吸引力 Qwen在2507系列推出了彼此独立的Instruct和Thinking更新 包括独立的30B和235B版本 以满足商业客户对高吞吐、低成本、强可控Instruct模式的明确需求[13] 行业主要参与者的技术路线 - Anthropic主张一体化模型哲学 Claude 3.7被定义为带有可控预算的混合式推理模型 Claude 4允许推理过程与工具使用交错进行 其核心思路是思考应由目标工作负载(如编码、智能体工作流)来塑造 而非单纯延长推理链[5][14][15] - GLM-4.5和DeepSeek V3.1也朝类似混合推理方向迈进 关键挑战在于融合是否“自然” 成功的融合要求推理投入是一个平滑连续的谱系 模型能表达多个层级的推理强度并理想地自适应选择 而非两个生硬拼接的人格[14] - OpenAI的o1被描述为通过强化学习训练、能够“先思考再作答”的模型 DeepSeek R1则定位为可与o1竞争的开源推理模型 共同推动了以推理为中心的后训练范式[9][10] 智能体思维的内涵与挑战 - 智能体思维是一种围绕行动展开、在环境中运作、并依赖反馈闭环不断修正自身的思维能力 它需要处理一系列纯推理模型可回避的问题 例如决定何时停止思考并采取行动、选择调用工具及顺序、吸收环境噪声、失败后修订计划、在多轮交互中保持一致性等[8][17][18][22] - 智能体强化学习的基础设施比经典推理强化学习更复杂 环境(工具服务器、模拟器、API层等)成为训练系统的一部分 这要求训练与推理必须更彻底地解耦 否则整条流水线的GPU利用率会远低于经典水平[19] - 环境质量成为核心研究对象 包括稳定性、真实性、覆盖面、反馈丰富度等 环境构建正从一个“副项目”变成一个真正的创业赛道[20] - 训练智能体系统面临更严峻的reward hacking挑战 例如模型学会直接搜索答案、利用代码仓库未来信息或发现任务失效捷径 下一批研究瓶颈将来自环境设计、评估器鲁棒性、反作弊协议等方面[21][23] 未来竞争格局与能力构建 - 未来智能体能力的核心 越来越不只来自模型本身 也来自围绕模型搭建的“脚手架” 即环境、工具、约束、反馈循环以及多智能体协同机制 Harness Engineering的价值在于把“裸模型”变成能在现实任务中持续工作的Agent[7] - 未来的核心智能将越来越多地体现在多个智能体的组织方式上 例如负责规划的协调器、领域专家智能体、处理窄任务的子智能体 演进路径是从训练模型 走向训练智能体 再走向训练系统[23] - “好的思考”的定义发生改变 真正有价值的不是最长、最显眼的思维轨迹 而是在现实约束下最能支撑持续行动、最能在环境中有效运作、并能通过反馈闭环不断修正的那种思考[24]
堆推理链全错了!林俊旸离职首曝:曾在阿里 Qwen 踩中一个“致命”技术误区
AI前线·2026-03-27 11:45