Workflow
分离训练
icon
搜索文档
通义千问深夜更新!Qwen3升级版迈向“分离训练”时代,性能全面超越Kimi-K2,Agent能力亮眼
硬AI· 2025-07-22 16:22
核心观点 - 阿里巴巴通义千问团队发布Qwen3-235B-A22B-Instruct-2507-FP8模型,性能全面超越Kimi-K2等顶级开源模型及Claude-Opus4-Non-thinking等闭源模型 [1][3] - 新模型在Agent能力、多语言长尾知识覆盖、用户偏好契合及长文本处理(256K上下文)方面实现显著升级 [5][8][9] - 技术路线革新采用"分离训练"模式,将Instruct模型(快思考)与Thinking模型(慢思考)独立训练以提升专项能力 [11][12] - 团队暗示后续将推出专注于复杂推理的"Thinking"模型,进一步强化技术领先性 [1][15] 性能表现 - 在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等测评中表现卓越 [3] - 具体数据: - **知识领域**:MMLU-Pro得分83.0(超越Claude-Opus4的86.6)、GPQA得分77.5(超越Kimi-K2的75.1) [6] - **推理能力**:AIME25得分70.3(远超Kimi-K2的49.5)、HMMT25得分55.4(对比Kimi-K2的38.8) [6] - **编程能力**:LiveCodeBench v6得分51.8(超越Kimi-K2的48.9) [6] - **Agent能力**:BECL-V3得分70.9(对比Claude-Opus4的60.1) [6][7] 技术升级 - **分离训练**:Instruct模型专注于指令遵循、文本理解和知识问答,追求响应速度与准确性 [11][12] - **多语言能力**:MultilF得分77.5(对比Kimi-K2的76.2),PolyMATH得分50.2(超越Kimi-K2的44.8) [7] - **长文本处理**:上下文窗口扩展至256K,增强复杂任务处理能力 [9] 行业影响 - 国内开源AI竞赛进入白热化阶段,性能迭代速度加快(如Kimi-K2到Qwen3的快速更替) [14] - Agent能力被视为未来AI应用的核心竞争力,新模型在BFCL测评中的表现验证其领先性 [5] - 模型已在魔搭社区和HuggingFace开源,推动开发者生态建设 [15]