Workflow
阿里Qwen3深夜开源,8款模型、集成MCP,性能超DeepSeek-R1,2小时狂揽16.9k星
SKLTYSeek .(SKLTY) 36氪·2025-04-29 07:23

文章核心观点 阿里云开源Qwen3系列模型,该系列模型具有多种特性和优势,在性能上表现出色,未来将围绕多维度提升能力以适应AI产业发展[2][24] 模型发布情况 - 4月29日凌晨4点阿里云正式开源Qwen3系列模型,包含2个MoE模型、6个稠密模型,发布2小时在GitHub上star数超16.9k [2] - Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台开源,均遵循Apache 2.0许可证 [7] 模型特性 - 有8种参数大小的稠密与MoE模型,分别为0.6B、1.7B、4B、8B、14B、32B、Qwen3 - 235B - A22B(2350亿总参数和220亿激活参数)、Qwen3 - 30B - A3B(300亿总参数和30亿激活参数) [4] - 引入混合思考模式,用户可切换“思考模式”“非思考模式”控制思考程度,思考模式适用于复杂问题,非思考模式适用于对响应速度敏感的问题,还能增强模型实施稳定和高效思考预算控制的能力 [4][15][16] - 推理能力提升,在数学、代码生成和常识逻辑推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下) [4] - 支持MCP(模型上下文协议),Agent能力提升,可在思考和非思考模式下实现大语言模型与外部数据源和工具的集成并完成复杂任务 [4] - 支持119种语言和方言,具备多语言理解、推理、指令跟随和生成能力 [4] 模型性能 - 旗舰模型Qwen3 - 235B - A22B在编程、数学、通用能力等基准评估中表现优于DeepSeek - R1、OpenAI o1、OpenAI o3 - mini、Grok - 3和Gemini - 2.5 - Pro等业界知名模型 [3] - 小型MoE模型Qwen3 - 30B - A3B在激活参数是QwQ - 32B的1/10的情况下实现性能反超,参数规模更小的Qwen3 - 4B模型实现了与Qwen2.5 - 72B - Instruct的性能相当 [11] - Qwen3 - 1.7B/4B/8B/14B/32B - Base的性能分别与Qwen2.5 - 3B/7B/14B/32B/72B - Base相当,在STEM、编程和推理等领域,Qwen3稠密模型的性能甚至优于参数规模更大的Qwen2.5系列模型 [13] 模型上下文长度 - 6个稠密模型中,0.6B~4B参数规模的模型上下文长度为32K,8B~32B参数规模的模型上下文长度为128K,2个MoE模型的上下文长度均为128K [8][10] 模型部署 - 建议开发者使用SGLang和vLLM等框架,本地部署的开发者使用Ollama、LMStudio、MLX、llama.cpp等工具 [9] 预训练与后训练 - 与Qwen2.5相比,Qwen3的预训练数据集大小翻了两倍,Qwen2.5在1800亿个token上预训练,Qwen3基于约3600亿个token预训练,研发人员收集多种数据并使用Qwen2.5相关模型处理数据,还生成合成数据增加数学和代码数据量 [20] - 预训练分三个阶段,第一阶段在超3000亿个token上预训练,上下文长度4K;第二阶段增加知识密集型数据比例,在额外500亿个token上预训练;第三阶段用高质量长上下文数据将上下文长度扩展到32K [21] - 后训练采取四阶段训练流程,包括思维链(CoT)冷启动、基于推理的强化学习、思维模式融合、通用强化学习,以开发既能逐步推理又能快速响应的混合模型 [21][23] 未来发展 - 未来将围绕优化模型架构和训练方法,实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态的目标,并通过环境反馈推进长期推理的强化学习 [24]