Workflow
Qwen全面升级非思考模型,3B激活、256K长文、性能直逼GPT-4o
量子位·2025-07-30 17:44

Qwen3-30B-A3B-Instruct-2507模型发布 - 全新非思考模型Qwen3-30B-A3B-Instruct-2507闪电上线,是Qwen3-30B-A3B的高质量指令微调版本[2][7] - 仅激活3B参数即媲美Gemini 2.5-Flash和GPT-4o等顶尖闭源模型性能[3] - 相较前代非思考模型,推理能力(AIME25)提升183.8%,对齐能力(Arena-Hard v2)提升178.2%,长文本处理能力从128K提升至256K[4][5] 模型性能优势 - 在多语言长尾知识覆盖、主观与开放任务文本质量、代码生成、数学计算、工具使用等通用能力上全面进步[5] - 在长文本处理任务中展现出惊人稳定性,极端情况下仅偶尔遗漏少量文档,而其他模型会出现大面积内容丢失[10] - 支持256K上下文窗口,具备稳健的长程依赖建模能力,能保持语义连贯和细节清晰[11] Qwen3系列产品矩阵 - Qwen3系列包含不同参数量和激活参数的模型,如旗舰模型Qwen3-235B-A22B(235B总参数/22B激活参数)和较小模型Qwen3-30B-A3B(30B总参数/3B激活参数)[14][15] - 针对不同场景推出密集(Dense)模型,参数量从0.6B到32B不等[14][16] - 提供多种量化策略版本,包括FP8、Int4、AWQ、GGUF、GPTQ等[16] - 模型命名系统清晰标注参数规模、精度格式和训练类型等信息[13][15] 行业影响 - 模型更新速度极快,一周内发布多款新模型,包括Qwen3-235B-A22B-Thinking-2507和Qwen3-Coder-480B-A35B-Instruct等[12][15] - 产品矩阵覆盖从研究到应用、从大厂集群到边缘部署的各种需求[18] - 网友评价其更新速度"疯狂",认为其他竞争者难以匹敌[5]