Workflow
Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了
量子位·2025-07-22 12:35

开源大模型竞争格局 - 开源大模型竞争进入中国时间,Qwen3新模型发布后迅速获得行业关注[1][24] - Qwen3-235B总参数量为235B,仅为Kimi K2 1T参数规模的25%[2] - 新模型在基准测试性能上超越Kimi K2和DeepSeek-V3等竞争对手[3][13] - 行业竞争格局快速变化,DeepSeek、Kimi和Qwen相继占据领先位置[25] Qwen3-235B-A22B-2507技术升级 - 采用MoE架构,总参数量235B(非嵌入参数234B),推理时激活参数22B[8] - 包含94层网络结构,采用分组查询注意力机制(64个查询头+4个键值头)[8] - 设置128个专家,每次推理激活8个专家[8] - 原生支持262144(256K)长上下文处理能力[9] - 放弃混合思维模式,改为分别训练Instruct和Thinking模型[4] - 当前版本仅支持非思考模式,网页版已上线但通义APP未更新[5] 性能提升表现 - 数学推理能力显著提升:AIME25准确率从24.7%跃升至70.3%[13] - 知识测试表现:MMLU-Pro得分从75.2提升至83.0,MMLU-Redux从89.2升至93.1[11] - 编程能力提升:LiveCodeBench得分从32.9提高到51.8[11] - 多语言能力增强:MultilF得分从70.2提升至77.5[13] - 文本生成质量改善:Creative Writing v3得分从80.4升至87.5[13] 行业动态 - NVIDIA同期发布OpenReasoning-Nemotron系列模型(1.5B/7B/14B/32B)[17][18] - NVIDIA新模型实际基于Qwen-2.5微调,非全新架构[21] - Qwen官方预告将有更大规模升级即将发布[6][23] - Llama转向闭源背景下,中国开源模型正成为行业焦点[24]