文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变,其核心是从“想更久”转变为“为了行动而想” [7][8] - 未来的竞争力不只来自更好的模型,更来自更好的环境设计、更强的编排工程以及多智能体之间的协调 [7][25] - 训练的核心对象已从模型本身,转变为“模型+环境”的系统,或更具体地说是智能体及其编排框架 [27] 1. 对过去推理模型时代的总结与反思 - OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和复现,教会行业一个关键认知:要在语言模型上做强化学习,需要确定性强、可规模化的反馈信号 [5][9] - 推理模型的崛起既是建模的故事,也是基础设施的故事,标志着从扩展预训练到扩展面向推理的后训练的第一次重大转变 [9] - 2025年上半年,行业将大部分精力花在研究如何让模型花更多推理时间、如何训练更强的奖励、如何控制推理力度 [6][8] 2. 关于“合并思考与指令”模式的探讨与挑战 - 通义千问团队曾尝试将思考(thinking)和指令(instruct)模式合并到一个模型,Qwen3是该方向最清晰的公开尝试之一,引入了混合思维模式 [5][10] - 但合并面临根本挑战:两种模式的数据分布和行为目标存在本质差异,导致思考行为变得啰嗦犹豫,指令行为不够干脆可靠且成本更高 [5][13] - 真正成功的合并不是硬塞两种人格,而是需要一个流畅的推理努力连续光谱,让模型能表达多个层级的推理力度并自适应选择 [5][15] - 实践中,分离产品线(如Qwen3 2507版本发布独立的Instruct和Thinking更新)对满足商业客户对高吞吐、低成本、高度可控指令行为的需求更有吸引力 [14] 3. 智能体式思维(Agentic Thinking)的定义与核心特征 - 智能体式思维是为了行动而思考,在与环境的交互中思考,并根据来自真实世界的反馈持续更新计划 [6][8] - 其与推理式思维的关键区别在于:判断何时停止思考并开始行动;动态选择调用工具及顺序;消化来自环境的噪声和部分观测;失败后修正计划;跨越多轮对话和工具调用保持连贯 [6][22] - 智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长周期内持续运行的闭环交互系统 [19] 4. 实现智能体时代面临的技术与基础设施挑战 - 智能体强化学习的基础设施比推理RL更难,需要将策略嵌入包含工具服务器、浏览器、模拟器等的大编排框架中,环境本身成为训练系统的一部分 [20] - 这带来了新的系统需求:训练和推理必须更彻底地解耦,以避免因工具延迟、等待反馈等导致的采样吞吐量崩溃和GPU利用率低下 [20][21] - 环境质量成为核心,行业应痴迷于环境的稳定性、真实性、覆盖度、反馈丰富度及防作弊能力,构建环境正变成一个真正的创业赛道 [23] 5. 行业未来发展方向与竞争关键 - 从训练模型,到训练智能体,再到训练系统,是未来的明确方向 [7][25] - 智能体时代的优势将来自更好的环境设计、更紧密的训练-推理耦合、更强的编排工程,以及在模型决策与其后果之间实现闭环的能力 [27] - 需要警惕奖励作弊(reward hacking)的风险,更好的工具访问权限也扩大了虚假优化的攻击面,下一批研究瓶颈将来自环境设计、评估器鲁棒性和防作弊协议 [24] - 编排工程将兴起,核心智能将越来越多地来自多个智能体(如规划者、领域专家、子智能体)的组织与协调方式 [25]
林俊旸离职后首次发声:复盘千问的弯路,指出AI的新路