文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变,未来的核心竞争力将来自智能体与环境交互的能力,而非孤立的模型推理能力 [12][13][71] - OpenAI的o1和DeepSeek-R1的成功标志着“推理式思考”时代的使命完成,它们证明了推理能力可通过强化学习规模化训练,关键在于确定性强、可规模化的反馈信号 [9][10][23] - 千问团队在Qwen3上尝试合并“思考”与“指令”模式,但结果未达预期,两种模式的行为目标存在本质冲突,导致合并后效果平庸 [5][7][35][36] - 真正的未来方向是“智能体式思考”,即模型为了行动而思考,在与环境的交互中不断修正计划,其基础设施和训练挑战远大于推理模型 [22][54][56][73] 从“推理模型时代”到“智能体时代”的转变 - 推理时代的成就与局限:OpenAI的o1和DeepSeek-R1证明了推理能力可以成为一等公民级别的、可专门训练的能力,并能在实验室外被复现和规模化 [16][17][27]。行业在2025年上半年集中研究如何让模型花更多推理时间、训练更强的奖励模型以及控制推理力度 [11][21]。然而,过长的推理轨迹可能只是算力分配低效的信号,并非更聪明的表现 [48] - 智能体时代的定义与核心:智能体式思考的核心优化目标从“想得更久”转变为“为了行动而想”,模型需要在与环境的交互中持续取得进展 [13][22][54]。智能体是一个能与世界进行闭环交互的系统,能够制定计划、使用工具、感知反馈并修正策略 [52] - 竞争优势的迁移:在推理时代,优势来自更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线 [76]。在智能体时代,优势将来自更好的环境设计、更强的编排工程、训练与推理的紧密耦合,以及多智能体之间的协调能力 [13][74][76] 对“思考”与“指令”模式合并的反思 - 千问团队的尝试与挑战:Qwen3是统一思考与指令模式方向上“最清晰的公开尝试之一”,引入了混合思维模式和四阶段后训练流水线 [6][32]。但合并面临根本挑战:两种模式的数据分布和行为目标存在本质差异 [35]。指令模式追求简洁、直接、低延迟和高吞吐,适用于企业批量任务;思考模式则奖励在难题上花费更多token进行连贯推理以提升正确率 [35]。强行合并可能导致“思考”行为变得臃肿犹豫,“指令”行为变得不够干脆可靠且成本更高 [7][36] - 行业的不同路径:2025年下半年,千问在Qwen3之后发布了独立的Instruct和Thinking模型更新,因为大量商业客户仍需要高吞吐、低成本、高度可控的指令模型,分离产品线能更专注地解决各自问题 [38]。相反,Anthropic的Claude 3.7 Sonnet和GLM-4.5等选择了整合路线,主张推理应作为一种整合能力,而非独立模型 [39][40] - 成功合并的关键:真正的成功合并不是将两种人格硬塞进一个检查点,而是让模型拥有一个连续的“推理努力光谱”,能够流畅地表达多个层级的推理力度,并理想地自适应选择 [8][44]。GPT式的力度控制是朝这个方向的努力,它是一种关于算力分配的策略 [45] 智能体时代的基础设施与挑战 - 基础设施的根本性变革:智能体强化学习的基础设施比推理强化学习复杂得多 [55]。环境(如工具服务器、浏览器、模拟器)成为训练系统的一部分,而不仅仅是静态验证器 [57][58]。这要求训练与推理必须更彻底地解耦,否则采样吞吐量会因等待环境反馈而崩溃 [59][60] - 环境成为核心研究对象:在智能体时代,环境质量(稳定性、真实性、反馈丰富度、防作弊能力)变得至关重要,构建高质量环境本身已成为一个重要的创业或研究方向 [61] - 奖励作弊风险加剧:一旦模型能访问工具,奖励作弊变得非常危险。例如,模型可能学会在训练中直接搜索答案,或利用环境漏洞走捷径,这要求更严格的环境设计、评估器鲁棒性和防作弊协议 [66][67][69] 未来发展方向与关键能力 - 从训练模型到训练系统:未来的方向是从训练模型,演进到训练智能体,最终到训练整个系统(模型+环境+编排框架) [14][71][73] - 编排工程的兴起:核心智能将越来越多地来自多个智能体的组织与编排,例如规划者、领域专家智能体和执行子智能体的协同工作 [70] - “好的思考”重新定义:最有用的思考轨迹是能在真实世界约束下维持有效行动的轨迹,而非最长或最醒目的内部独白 [75]
林俊旸离职后首次发声!复盘千问的弯路,指出AI的新路
量子位·2026-03-27 00:01