Qwen 2507版本
搜索文档
林俊旸离职后首发长文
新华网财经· 2026-03-27 11:22
行业对大模型评估方式与核心期待的重塑 - 过去两年重塑了行业对大模型的评估方式与核心期待 OpenAI的o1模型表明“思考”可以成为一种被训练出来的能力 [2] - DeepSeek-R1紧随其后 证明推理式的后训练可以在原始实验室之外被复现、被扩展 [2] 大模型发展的当前阶段与下一步方向 - 2025年上半年 行业焦点主要停留在“推理式思考”本身 即如何让模型在推理时多想一会儿 [2] - 下一步的判断是“智能体式思考” 即为了行动而思考 在与环境交互的过程中 根据来自世界的反馈持续更新计划 [2] 统一思考与指令模式的探索与挑战 - 2025年初 千问团队曾有一个很大的野心 希望做一个统一的系统 让思考模式和指令模式合二为一 支持可调节的推理努力程度 甚至能根据提示词和上下文自动推断合适的推理量 [2] - 真正的难点在于数据 两种模式的数据分布和行为目标存在显著差异 尝试合并的结果往往是在两个方向上都表现平庸 [3] - 分开做在实践中仍有吸引力 2025年下半年 Qwen的2507版本就发布了独立的Instruct和Thinking版本 30B和235B各一套 [3] - 真正成功的合并需要一个平滑的推理力度光谱 模型能自己判断该花多少力气去想 [3] 智能体式思考与推理式思考的核心差异 - 推理式思考通常以最终答案前的内部思辨质量来评判 例如模型能否解出定理、写出证明、生成正确代码或通过基准测试 [4] - 智能体式思考关注的是模型能否在与环境交互的过程中持续取得进展 [4] - 核心问题从“模型能否思考得足够久”转变为“模型能不能用一种撑得起有效行动的方式来思考” [4] - 模型训练的核心对象也随之改变 变成了模型加环境的整个系统 [4] - 环境设计、rollout基础设施、评估器的稳健程度、多个Agent之间怎么协调 这些都进入了核心圈 [4] - “好的思考”的定义也变了 是在真实约束下最能撑起行动的那条轨迹 而非最长或最显眼的那条 [4] 对行业未来发展的预判 - 行业正在从训练模型的时代 走向训练智能体的时代 其定义特征是跟真实世界的闭环交互 [3] - 智能体式思考会成为主流 [5]