模型发布与性能 - 阿里Qwen团队发布全新Qwen3系列大模型,一次性开源8款混合推理模型,包括2个MOE模型和6个Dense模型 [1][3][4] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在代码、数学和通用能力基准测试中超越DeepSeek R1和OpenAI o1,接近Google Gemini 2.5-Pro [4][5] - Qwen3-30B-A3B总参数300亿,激活参数仅30亿,性能优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B-Instruct水平 [6][7] 技术创新与架构 - Qwen3是国内首个支持"快思考"和"慢思考"混合推理的模型,可根据问题难度切换响应模式 [9][10] - 模型预训练数据量达36万亿token,覆盖119种语言,是Qwen2.5的两倍,采用三阶段训练流程提升专业能力和长文本处理 [16][17] - MOE架构仅激活10%参数即可实现接近Qwen2.5 Dense模型的性能,显著降低训练和推理成本 [19] 行业影响与用户反馈 - Qwen3系列开源模型数量突破10万,超越Meta Llama成为全球最大开源模型族群 [23] - 外媒评价Qwen3接入效率高,几小时可替代OpenAI接口,显存使用效率接近GPT-4 [23] - 用户实测显示Qwen3在编程、数学和多语言处理表现优异,GitHub热度达17.9k Star [25][26][27][31] 多语言与部署支持 - 支持119种语言和方言,覆盖全球主要语系,包括印欧语系、汉藏语系、亚非语系等 [11][13] - 模型已在Hugging Face、ModelScope、Kaggle等平台上线,支持网页端和移动端使用 [14][18] - 推荐使用SGLang、vLLM等推理框架进行部署,本地工具支持包括Ollama、LMStudio等 [15]
性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!