模型发布与核心特性 - 通义千问最新一代大模型Qwen3系列于今日凌晨发布,共开源8款模型,包括2款MoE模型和6款Dense模型 [2] - 该系列模型在代码、数学、通用能力等方面表现优异,其中旗舰MoE模型Qwen3-235B-A22B在基准测试上的水平超过了671B的DeepSeek R1 [2][4] - 模型引入了“思考模式/非思考模式”无缝切换功能,思考模式下逐步推理,非思考模式下快速响应,以平衡算力与输出效果 [2][8] - 模型提高了Agent能力,并加强了对MCP(Model Context Protocol)的支持,配套Qwen-Agent项目便于工具调用和扩展 [2][16][17] 模型架构与性能对比 - 发布的模型包括MoE架构:Qwen3-235B-A22B(总参数量235B,激活22B)和Qwen3-30B-A3B(总参数量30B,激活3B);Dense架构:0.6B、1.7B、4B、8B、14B、32B六款 [3][6] - 上下文长度方面,小模型支持32K,大模型支持128K [3] - 性能数据显示,Qwen3-235B-A22B在多项基准测试中表现突出,例如ArenaHard得分为95.6,AIME'24得分为85.7,LiveCodeBench v5得分为70.7 [7] - 较小的MoE模型Qwen3-30B-A3B仅用10%的激活参数,其表现超过DeepSeek V3和GPT-4o [3][7] - 小尺寸Dense模型Qwen3-4B的性能可匹敌上一代的Qwen2.5-72B-Instruct模型 [3][7] 多语言与训练细节 - Qwen3支持119种语言和方言,覆盖印欧语系、汉藏语系等9大语系,相比仅支持29种语言的Qwen2有大幅提升 [3][13][14] - 模型预训练使用了约36万亿个tokens的数据,是Qwen2.5(18万亿tokens)的两倍 [3][31] - 预训练分为三阶段:第一阶段使用30万亿tokens、4K上下文建立基础;第二阶段增加5万亿tokens强化STEM与编程;第三阶段扩展上下文至32K加入长文本数据 [28][29][30] - 后训练通过四个阶段优化,包括长链推理冷启动、强化学习提升推理、思考/非思考模式融合以及通用任务强化学习,使模型掌握灵活推理与工具调用能力 [33][34][35][37] 技术规格与部署 - 模型采用Apache 2.0许可开源,可通过HuggingFace、ModelScope、Kaggle等平台下载 [3] - 支持多种本地部署与运行方式,包括SGLang、vLLM(提供OpenAI兼容API)、Ollama、LMStudio等 [3] - 用户可通过enable_thinking参数或使用/think和/no_think指令在对话中动态切换思考模式 [3][19] 发展历程与定位 - 通义千问大模型最早于2023年4月由阿里云推出,初期为闭源模型 [38] - 2023年8月,阿里开源Qwen-7B和Qwen-7B-Chat模型,首次使用“Qwen”名称并采用Apache 2.0协议,面向开源社区 [39][41] - 随后陆续发布了Qwen-14B、Qwen-72B等版本,打通了从1B到72B的参数区间 [42][44][47][50] - 2024年发布了Qwen1.5、Qwen2及Qwen2.5系列,在架构、数据量和多模态能力上持续迭代,Qwen2.5曾连续多周在Hugging Face开源榜单霸榜 [51][53][56][59] - 本次Qwen3的发布,在模型规模、长文本处理、混合推理模式及Agent能力上进行了系统级优化,标志着该系列进入新的发展阶段 [60][62][63][64][65]
阿里Qwen3系列开源:混合推理模式、性能超越DeepSeek R1