文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变,核心是从“想更久”的静态推理转向“为了行动而想”的交互式智能体思维 [11][14][73] - 未来竞争力的关键不只在于模型本身,更在于环境设计、编排工程以及实现模型与真实世界反馈闭环的能力 [11][70][77] 对“推理模型时代”的总结与反思 - 时代成就与关键认知:OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和规模化复现,教会行业一个关键认知:要在语言模型上做强化学习,需要确定性强、可规模化的反馈信号 [11][15][16] - 核心转变:实现了从扩展预训练到扩展面向推理的后训练的第一次重大转变 [23] - 成功要素:推理模型的崛起既是一个建模的故事,也是一个基础设施的故事,需要大规模的轨迹采样、高吞吐量验证等系统工程 [21][22] - 行业焦点:2025年上半年,行业大部分精力花在研究如何让模型花更多推理时间、如何训练更强的奖励、如何控制推理力度 [11][13] 对“智能体时代”的定义与展望 - 核心定义:智能体式思维意味着为了行动而思考,在与环境的交互中不断修正计划,其定义特征是与世界的闭环交互 [11][14][49] - 与推理思维的关键区别: - 判断何时停止思考并开始行动 [11][51] - 选择调用哪个工具及顺序,是动态规划问题 [11][51] - 消化来自环境的噪声和部分观测 [11][51] - 失败后修正计划,而非推倒重来 [11][51] - 跨越多轮对话和多次工具调用保持连贯 [11][51] - 未来方向:从训练模型,到训练智能体,再到训练系统,智能体将越来越多地以多智能体组织方式运作 [11][70][71] 对技术路线与行业实践的评析 - 对混合模型路线的反思:Qwen3是统一思考与指令模式的“最清晰的公开尝试之一”,引入了混合思维模式 [8][27] - 合并的挑战:合并思考和指令两种模式存在根本困难,因数据分布和行为目标有本质差异,若处理不当会导致“思考”行为变得臃肿,“指令”行为不够干脆可靠且更贵 [7][30][33] - 行业不同选择: - 部分公司如阿里千问在Qwen3后转向发布独立的Instruct和Thinking模型版本,因商业客户对高吞吐、低成本指令行为有明确需求 [35] - Anthropic(Claude 3.7/4)、GLM-4.5、DeepSeek V3.1则公开主张或走向整合模型的路线 [36][37][38] - 成功合并的关键:不是将两种人格硬塞进一个检查点,而是让模型拥有一个连续的推理努力光谱,并能自适应选择 [10][41][42] 智能体时代的基础设施与挑战 - 基础设施变革:智能体RL需要全新的基础设施,训练和推理必须更彻底地解耦,以避免因环境交互(如等待工具反馈)导致的吞吐量崩溃 [56][57] - 环境成为核心:环境设计本身成为一等公民级别的研究对象,其质量(稳定性、真实性、反馈丰富度等)至关重要,构建环境已变成一个真正的创业赛道 [59][60] - 主要挑战: - 奖励作弊:模型获得工具访问权限后,奖励作弊变得危险得多,例如搜索智能体可能直接搜索答案,编程智能体可能利用代码仓库中的未来信息 [65][66] - 研究瓶颈:下一批严肃的研究瓶颈将来自环境设计、评估器鲁棒性、防作弊协议等 [69] - 竞争优势来源:优势将来自更好的环境、更紧密的训练-推理耦合、更强的编排工程,以及实现决策与后果闭环的能力 [74][76][77]
林俊旸离职后首次发声,复盘千问的弯路,指出AI的新路
36氪·2026-03-27 19:12