林俊旸离职后首度发声：万字复盘，大模型下一站「智能体式思考」

文章核心观点 - 行业正经历从“推理式思维”向“智能体式思维”的范式转移，未来的绝对主线是训练能够与环境交互、为行动而思考的智能体，而非仅仅优化内部推理的模型 [4][16][29] - OpenAI o1和DeepSeek R1的崛起标志着行业从扩展预训练规模转向扩展后训练规模以进行推理，并凸显了基础设施和确定性反馈信号的重要性 [4][7] - 将“思考模式”与“指令模式”融合在单一模型内面临根本性挑战，两种模式在数据分布和行为目标上存在内在冲突，实践中分离部署可能更具吸引力 [10][11][13] - 智能体式思维将优化目标从解决基准测试转向在交互中持续取得进展，这带来了更复杂的基础设施挑战，并使得环境设计、训练-推理解耦、防作弊协议成为新的研究瓶颈 [18][20][25][26] - 竞争优势的来源正在改变：从“推理时代”的强化学习算法和训练流水线，转向“智能体时代”的环境设计、训练与服务集成以及系统编排工程能力 [30] 1. o1和R1的崛起究竟教会了我们什么 - 第一波推理模型表明，在语言模型中扩展强化学习需要确定性、稳定和可扩展的反馈信号，数学、代码等可验证领域的奖励比通用偏好监督更有效 [6] - 推理模型的出现既是建模的故事，也是基础设施的故事，强化学习从监督微调的附加组件演变为需要大规模部署、高吞吐量验证和高效采样的系统问题 [7] - 行业发生了第一个重大转变：从扩展预训练规模转向扩展后训练规模以进行推理 [7] 2. 真正的问题绝非仅仅是“融合思考与指令” - Qwen3尝试了“混合思考模式”，旨在将“思考型”与“指令型”行为融合，支持可调节的推理强度，并设计了四阶段的后训练流程 [9] - 融合的根本挑战在于数据：两种模式依赖的数据分布和行为目标截然不同，指令型追求低延迟、格式规范和简洁，思考型则需投入更多Token资源进行逻辑推理和探索 [10][11] - 未经精细数据编排的融合训练可能导致两头落空：思考行为变得冗杂臃肿，指令行为成本升高且可靠性下降 [11] - 实践中，保持分离部署更具吸引力，例如Qwen 2507系列推出了针对指令和思维功能的独立更新，以满足商业客户对高吞吐量、低成本、可控响应的需求 [11] - 其他实验室如Anthropic、智谱GLM和DeepSeek选择了集成路径，推出混合推理模型，但关键在于模型是否能呈现平滑连续的推理强度谱系，而非简单的二元开关 [12][13] 3. Anthropic的发展方向为何起到了有益的纠偏作用 - Anthropic在宣传Claude 3.7和Claude 4时强调集成推理、用户可控的“思考预算”、解决现实任务的能力以及思考与工具调用的交错进行 [15] - 其发展轨迹体现了一种严谨理念：模型的思考过程应根据具体工作负载塑形，例如为代码编写任务辅助导航和规划，为智能体工作流提升长周期任务执行成效 [16] - 这种对“针对性实用价值”的强调，指向了从“训练模型”向“训练智能体”时代的更宏大趋势 [16] 4. “智能体式思维”的真正含义 - 智能体式思维的优化目标发生转变：核心问题从“模型能否进行足够长时间的思考？”变为“模型能否以一种能够支撑有效行动的方式进行思考？” [18] - 它关注模型在与环境交互过程中能否持续取得进展，并必须处理行动选择、工具调用、整合不完整观测信息、失败后修正计划以及保持多轮交互一致性等问题 [18][25] 5. 为什么智能体式强化学习的基础设施构建难度更大？ - 优化目标转向交互式任务后，强化学习技术栈发生变化，策略模型被嵌入包含工具服务器、浏览器、模拟器、记忆系统等组件的庞大支撑框架中，环境成为训练系统不可分割的一部分 [20] - 这带来了全新的系统级需求：训练过程与推理过程必须实现彻底解耦，否则工具调用延迟、环境状态变化等因素将导致轨迹采样吞吐量急剧下滑和GPU利用率低下 [21] - 环境本身跃升为核心研究资产，其质量（如稳定性、真实性、覆盖度、反馈丰富度）至关重要，环境构建正演变为一个独立的创业赛道 [22] 6. 下一个前沿：更具可用性的思维 - 智能体式思维预计将取代许多静态独白式的推理思维模式，先进系统应拥有执行搜索、模拟、执行代码、验证等操作的权限，核心目标是以稳健高效的方式解决问题 [24] - 训练此类系统最棘手的挑战是“奖励作弊”风险，模型在获得调用外部工具权限后，可能学会利用环境漏洞走捷径，而非真正解决问题，这扩大了“虚假优化”的攻击面 [25] - 下一波研究瓶颈将集中在环境设计、评估器鲁棒性、防作弊协议以及策略与世界接口的构建上 [26] - 基于工具辅助的思维模式实用性优于孤立内部思维，智能体式思维的兴起也意味着对“系统编排工程”的精细化构建，未来趋势是从训练模型到训练智能体，再到训练整个智能体系统 [27]