林俊旸离职后首次发声，复盘千问的弯路，指出AI的新路

文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变，核心是从“想更久”的静态推理转向“为了行动而想”的交互式智能体思维 [11][14][73] - 未来竞争力的关键不只在于模型本身，更在于环境设计、编排工程以及实现模型与真实世界反馈闭环的能力 [11][70][77] 对“推理模型时代”的总结与反思 - 时代成就与关键认知：OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和规模化复现，教会行业一个关键认知：要在语言模型上做强化学习，需要确定性强、可规模化的反馈信号 [11][15][16] - 核心转变：实现了从扩展预训练到扩展面向推理的后训练的第一次重大转变 [23] - 成功要素：推理模型的崛起既是一个建模的故事，也是一个基础设施的故事，需要大规模的轨迹采样、高吞吐量验证等系统工程 [21][22] - 行业焦点：2025年上半年，行业大部分精力花在研究如何让模型花更多推理时间、如何训练更强的奖励、如何控制推理力度 [11][13] 对“智能体时代”的定义与展望 - 核心定义：智能体式思维意味着为了行动而思考，在与环境的交互中不断修正计划，其定义特征是与世界的闭环交互 [11][14][49] - 与推理思维的关键区别： - 判断何时停止思考并开始行动 [11][51] - 选择调用哪个工具及顺序，是动态规划问题 [11][51] - 消化来自环境的噪声和部分观测 [11][51] - 失败后修正计划，而非推倒重来 [11][51] - 跨越多轮对话和多次工具调用保持连贯 [11][51] - 未来方向：从训练模型，到训练智能体，再到训练系统，智能体将越来越多地以多智能体组织方式运作 [11][70][71] 对技术路线与行业实践的评析 - 对混合模型路线的反思：Qwen3是统一思考与指令模式的“最清晰的公开尝试之一”，引入了混合思维模式 [8][27] - 合并的挑战：合并思考和指令两种模式存在根本困难，因数据分布和行为目标有本质差异，若处理不当会导致“思考”行为变得臃肿，“指令”行为不够干脆可靠且更贵 [7][30][33] - 行业不同选择： - 部分公司如阿里千问在Qwen3后转向发布独立的Instruct和Thinking模型版本，因商业客户对高吞吐、低成本指令行为有明确需求 [35] - Anthropic（Claude 3.7/4）、GLM-4.5、DeepSeek V3.1则公开主张或走向整合模型的路线 [36][37][38] - 成功合并的关键：不是将两种人格硬塞进一个检查点，而是让模型拥有一个连续的推理努力光谱，并能自适应选择 [10][41][42] 智能体时代的基础设施与挑战 - 基础设施变革：智能体RL需要全新的基础设施，训练和推理必须更彻底地解耦，以避免因环境交互（如等待工具反馈）导致的吞吐量崩溃 [56][57] - 环境成为核心：环境设计本身成为一等公民级别的研究对象，其质量（稳定性、真实性、反馈丰富度等）至关重要，构建环境已变成一个真正的创业赛道 [59][60] - 主要挑战： - 奖励作弊：模型获得工具访问权限后，奖励作弊变得危险得多，例如搜索智能体可能直接搜索答案，编程智能体可能利用代码仓库中的未来信息 [65][66] - 研究瓶颈：下一批严肃的研究瓶颈将来自环境设计、评估器鲁棒性、防作弊协议等 [69] - 竞争优势来源：优势将来自更好的环境、更紧密的训练-推理耦合、更强的编排工程，以及实现决策与后果闭环的能力 [74][76][77]