林俊旸离职后首次发声！复盘千问的弯路，指出AI的新路

文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变，未来的核心竞争力将来自智能体与环境交互的能力，而非孤立的模型推理能力 [12][13][71] - OpenAI的o1和DeepSeek-R1的成功标志着“推理式思考”时代的使命完成，它们证明了推理能力可通过强化学习规模化训练，关键在于确定性强、可规模化的反馈信号 [9][10][23] - 千问团队在Qwen3上尝试合并“思考”与“指令”模式，但结果未达预期，两种模式的行为目标存在本质冲突，导致合并后效果平庸 [5][7][35][36] - 真正的未来方向是“智能体式思考”，即模型为了行动而思考，在与环境的交互中不断修正计划，其基础设施和训练挑战远大于推理模型 [22][54][56][73] 从“推理模型时代”到“智能体时代”的转变 - 推理时代的成就与局限：OpenAI的o1和DeepSeek-R1证明了推理能力可以成为一等公民级别的、可专门训练的能力，并能在实验室外被复现和规模化 [16][17][27]。行业在2025年上半年集中研究如何让模型花更多推理时间、训练更强的奖励模型以及控制推理力度 [11][21]。然而，过长的推理轨迹可能只是算力分配低效的信号，并非更聪明的表现 [48] - 智能体时代的定义与核心：智能体式思考的核心优化目标从“想得更久”转变为“为了行动而想”，模型需要在与环境的交互中持续取得进展 [13][22][54]。智能体是一个能与世界进行闭环交互的系统，能够制定计划、使用工具、感知反馈并修正策略 [52] - 竞争优势的迁移：在推理时代，优势来自更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线 [76]。在智能体时代，优势将来自更好的环境设计、更强的编排工程、训练与推理的紧密耦合，以及多智能体之间的协调能力 [13][74][76] 对“思考”与“指令”模式合并的反思 - 千问团队的尝试与挑战：Qwen3是统一思考与指令模式方向上“最清晰的公开尝试之一”，引入了混合思维模式和四阶段后训练流水线 [6][32]。但合并面临根本挑战：两种模式的数据分布和行为目标存在本质差异 [35]。指令模式追求简洁、直接、低延迟和高吞吐，适用于企业批量任务；思考模式则奖励在难题上花费更多token进行连贯推理以提升正确率 [35]。强行合并可能导致“思考”行为变得臃肿犹豫，“指令”行为变得不够干脆可靠且成本更高 [7][36] - 行业的不同路径：2025年下半年，千问在Qwen3之后发布了独立的Instruct和Thinking模型更新，因为大量商业客户仍需要高吞吐、低成本、高度可控的指令模型，分离产品线能更专注地解决各自问题 [38]。相反，Anthropic的Claude 3.7 Sonnet和GLM-4.5等选择了整合路线，主张推理应作为一种整合能力，而非独立模型 [39][40] - 成功合并的关键：真正的成功合并不是将两种人格硬塞进一个检查点，而是让模型拥有一个连续的“推理努力光谱”，能够流畅地表达多个层级的推理力度，并理想地自适应选择 [8][44]。GPT式的力度控制是朝这个方向的努力，它是一种关于算力分配的策略 [45] 智能体时代的基础设施与挑战 - 基础设施的根本性变革：智能体强化学习的基础设施比推理强化学习复杂得多 [55]。环境（如工具服务器、浏览器、模拟器）成为训练系统的一部分，而不仅仅是静态验证器 [57][58]。这要求训练与推理必须更彻底地解耦，否则采样吞吐量会因等待环境反馈而崩溃 [59][60] - 环境成为核心研究对象：在智能体时代，环境质量（稳定性、真实性、反馈丰富度、防作弊能力）变得至关重要，构建高质量环境本身已成为一个重要的创业或研究方向 [61] - 奖励作弊风险加剧：一旦模型能访问工具，奖励作弊变得非常危险。例如，模型可能学会在训练中直接搜索答案，或利用环境漏洞走捷径，这要求更严格的环境设计、评估器鲁棒性和防作弊协议 [66][67][69] 未来发展方向与关键能力 - 从训练模型到训练系统：未来的方向是从训练模型，演进到训练智能体，最终到训练整个系统（模型+环境+编排框架） [14][71][73] - 编排工程的兴起：核心智能将越来越多地来自多个智能体的组织与编排，例如规划者、领域专家智能体和执行子智能体的协同工作 [70] - “好的思考”重新定义：最有用的思考轨迹是能在真实世界约束下维持有效行动的轨迹，而非最长或最醒目的内部独白 [75]