行业技术发展路径 - 过去两年行业重塑了对大模型的评估方式与核心期待 例如 OpenAI 的 o1 表明“思考”可以成为一种被训练出来的能力 DeepSeek-R1 则证明推理式后训练可在原始实验室之外被复现和扩展[3] - 2025年上半年行业焦点主要停留在“推理式思考”本身 即如何让模型在推理时多想一会儿 而当前行业需要思考下一步的发展方向[3] - 行业正在从训练模型的时代走向训练智能体的时代 其定义特征是与真实世界形成闭环交互 智能体式思考将成为主流[3][5][7] 技术演进与核心挑战 - 一个重要的技术方向是构建统一的系统 将思考模式和指令模式合二为一 并支持可调节的推理努力程度 甚至让模型自主决定推理量 但实现“合并”极其困难[3] - 实现“合并”的真正难点在于数据 思考与指令两种模式的数据分布和行为目标存在显著差异 强行合并可能导致在两个方向上都表现平庸[4] - 在实践中 分开开发独立的指令版本和思考版本仍有吸引力 例如Qwen的2507版本就发布了独立的Instruct和Thinking版本 包括30B和235B各一套[5] - 更优的解决方案是构建一个平滑的推理力度光谱 使模型能自己判断该花费多少计算资源进行思考 因为更长的推理链并不等同于模型更聪明 有时反而意味着模型在乱花算力[5] 智能体时代的范式转变 - 智能体式思考与推理式思考的优化目标不同 推理式思考以最终答案前的内部思辨质量来评判 而智能体思维关注模型能否在与环境交互的过程中持续取得进展[5] - 核心问题从“模型能否思考得足够久”转变为“模型能不能用一种撑得起有效行动的方式来思考” 模型训练的核心对象也随之变为模型加环境的整个系统[5] - 在智能体时代 环境设计、rollout基础设施、评估器的稳健程度以及多个Agent之间的协调等问题变得至关重要 进入了技术核心圈[6] - “好的思考”的定义发生改变 指的是在真实约束下最能撑起行动的那条轨迹 而非最长或最显眼的那条[6]
林俊旸离职后首发长文
第一财经·2026-03-26 23:05