Seek .-Qwen3深夜炸场，阿里一口气放出8款大模型，性能超越DeepSeek R1，登顶开源王座

模型发布与性能 - 公司一次性开源8款混合推理模型，包括2款MOE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和6款Dense模型(Qwen3-32B至Qwen3-0.6B) [2][4][6] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数，激活参数220亿，在ArenaHard测试(95.6分)接近Gemini2.5-Pro(96.4分)，超越OpenAI o1(92.1分)和DeepSeek R1(93.2分) [2][3] - Qwen3-30B-A3B仅激活30亿参数(总参数300亿)，性能却优于QwQ-32B，小模型Qwen3-4B达到Qwen2.5-72B水平 [5][6] 技术创新 - 国内首个支持"思考模式"(深度推理)和"非思考模式"(快速响应)的混合推理模型，可通过指令切换 [8][10] - 预训练数据量达36万亿token(Qwen2.5的两倍)，支持119种语言，采用三阶段训练策略(S1:30T token基础训练，S2:5T token专业强化，S3:32K上下文扩展) [17][18][12] - 后训练采用四阶段流程：长链推理冷启动→强化学习→模式融合→通用能力强化，实现深度推理与快速响应平衡 [21][22] 行业影响 - 成为全球最大开源模型族群(累计200+模型，衍生模型超10万)，超越Meta Llama系列 [24] - 专家混合模型(MoE)显存效率高，20-30B规模即可实现接近GPT-4的推理能力 [24] - GitHub发布后迅速获17.9k星，用户实测显示其在编程、数学和多语言处理(119种)表现优异 [24][25][28][30] 部署与应用 - 提供0.6B-32B多种规模选择，支持从笔记本测试到多卡集群扩展 [24] - 推荐使用SGLang/vLLM框架部署，本地支持Ollama/LMStudio等工具 [16] - 已上线Hugging Face/ModelScope/Kaggle等平台，普通用户可通过网页/APP直接体验 [13][14][15]