林俊旸离职后首发长文

行业技术发展路径 - 过去两年行业重塑了对大模型的评估方式与核心期待例如 OpenAI 的 o1 表明“思考”可以成为一种被训练出来的能力 DeepSeek-R1 则证明推理式后训练可在原始实验室之外被复现和扩展[3] - 2025年上半年行业焦点主要停留在“推理式思考”本身即如何让模型在推理时多想一会儿而当前行业需要思考下一步的发展方向[3] - 行业正在从训练模型的时代走向训练智能体的时代其定义特征是与真实世界形成闭环交互智能体式思考将成为主流[3][5][7] 技术演进与核心挑战 - 一个重要的技术方向是构建统一的系统将思考模式和指令模式合二为一并支持可调节的推理努力程度甚至让模型自主决定推理量但实现“合并”极其困难[3] - 实现“合并”的真正难点在于数据思考与指令两种模式的数据分布和行为目标存在显著差异强行合并可能导致在两个方向上都表现平庸[4] - 在实践中分开开发独立的指令版本和思考版本仍有吸引力例如Qwen的2507版本就发布了独立的Instruct和Thinking版本包括30B和235B各一套[5] - 更优的解决方案是构建一个平滑的推理力度光谱使模型能自己判断该花费多少计算资源进行思考因为更长的推理链并不等同于模型更聪明有时反而意味着模型在乱花算力[5] 智能体时代的范式转变 - 智能体式思考与推理式思考的优化目标不同推理式思考以最终答案前的内部思辨质量来评判而智能体思维关注模型能否在与环境交互的过程中持续取得进展[5] - 核心问题从“模型能否思考得足够久”转变为“模型能不能用一种撑得起有效行动的方式来思考” 模型训练的核心对象也随之变为模型加环境的整个系统[5] - 在智能体时代环境设计、rollout基础设施、评估器的稳健程度以及多个Agent之间的协调等问题变得至关重要进入了技术核心圈[6] - “好的思考”的定义发生改变指的是在真实约束下最能撑起行动的那条轨迹而非最长或最显眼的那条[6]