林俊旸离职后首次发声：复盘千问的弯路，指出AI的新路

文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变，其核心是从“想更久”转变为“为了行动而想” [7][8] - 未来的竞争力不只来自更好的模型，更来自更好的环境设计、更强的编排工程以及多智能体之间的协调 [7][25] - 训练的核心对象已从模型本身，转变为“模型+环境”的系统，或更具体地说是智能体及其编排框架 [27] 1. 对过去推理模型时代的总结与反思 - OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和复现，教会行业一个关键认知：要在语言模型上做强化学习，需要确定性强、可规模化的反馈信号 [5][9] - 推理模型的崛起既是建模的故事，也是基础设施的故事，标志着从扩展预训练到扩展面向推理的后训练的第一次重大转变 [9] - 2025年上半年，行业将大部分精力花在研究如何让模型花更多推理时间、如何训练更强的奖励、如何控制推理力度 [6][8] 2. 关于“合并思考与指令”模式的探讨与挑战 - 通义千问团队曾尝试将思考（thinking）和指令（instruct）模式合并到一个模型，Qwen3是该方向最清晰的公开尝试之一，引入了混合思维模式 [5][10] - 但合并面临根本挑战：两种模式的数据分布和行为目标存在本质差异，导致思考行为变得啰嗦犹豫，指令行为不够干脆可靠且成本更高 [5][13] - 真正成功的合并不是硬塞两种人格，而是需要一个流畅的推理努力连续光谱，让模型能表达多个层级的推理力度并自适应选择 [5][15] - 实践中，分离产品线（如Qwen3 2507版本发布独立的Instruct和Thinking更新）对满足商业客户对高吞吐、低成本、高度可控指令行为的需求更有吸引力 [14] 3. 智能体式思维（Agentic Thinking）的定义与核心特征 - 智能体式思维是为了行动而思考，在与环境的交互中思考，并根据来自真实世界的反馈持续更新计划 [6][8] - 其与推理式思维的关键区别在于：判断何时停止思考并开始行动；动态选择调用工具及顺序；消化来自环境的噪声和部分观测；失败后修正计划；跨越多轮对话和工具调用保持连贯 [6][22] - 智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长周期内持续运行的闭环交互系统 [19] 4. 实现智能体时代面临的技术与基础设施挑战 - 智能体强化学习的基础设施比推理RL更难，需要将策略嵌入包含工具服务器、浏览器、模拟器等的大编排框架中，环境本身成为训练系统的一部分 [20] - 这带来了新的系统需求：训练和推理必须更彻底地解耦，以避免因工具延迟、等待反馈等导致的采样吞吐量崩溃和GPU利用率低下 [20][21] - 环境质量成为核心，行业应痴迷于环境的稳定性、真实性、覆盖度、反馈丰富度及防作弊能力，构建环境正变成一个真正的创业赛道 [23] 5. 行业未来发展方向与竞争关键 - 从训练模型，到训练智能体，再到训练系统，是未来的明确方向 [7][25] - 智能体时代的优势将来自更好的环境设计、更紧密的训练-推理耦合、更强的编排工程，以及在模型决策与其后果之间实现闭环的能力 [27] - 需要警惕奖励作弊（reward hacking）的风险，更好的工具访问权限也扩大了虚假优化的攻击面，下一批研究瓶颈将来自环境设计、评估器鲁棒性和防作弊协议 [24] - 编排工程将兴起，核心智能将越来越多地来自多个智能体（如规划者、领域专家、子智能体）的组织与协调方式 [25]