参数破万亿!阿里Qwen3-Max-Thinking发布,编程能力“踢馆”Gemini与Claude
AI前线·2026-01-27 00:33

模型发布与核心规格 - 阿里通义团队发布迄今规模最大、能力最强的旗舰语言模型Qwen3-Max-Thinking正式版 [1] - 模型总参数规模超过1万亿(1T),预训练数据规模高达36T Tokens,覆盖大量高质量语料 [1] - 该版本包括Base、Instruct和Thinking多种形式 [2] 性能表现与基准测试 - 在包含事实科学知识、复杂推理和编程能力在内的19项权威基准测试中取得极高水平,综合表现可媲美GPT-5.2-Thinking、Claude-Opus-4.5及Gemini-3 Pro等业内领先模型 [4][7] - 在数学推理基准测试中,曾在预览阶段实现AIME 25和HMMT 25满分(即100%准确率) [7] - 在多项关键AI基准测试中达到或刷新了全球SOTA表现,覆盖科学知识问答(如GPQA Diamond)、数学推理(如IMO等级测试)、代码编程(如LiveCodeBench)等多个领域 [6] - 相较于此前的Instruct版本,Thinking版本在Agent工具调用、复杂逻辑和深度推理任务中表现出更优的能力 [7] 核心技术创新 - 引入自适应工具调用能力,模型能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能,无需用户手动选择工具 [9][10] - 引入测试时扩展技术,在推理阶段分配额外计算资源以提升模型性能,采用经验累积式、多轮迭代的策略 [11] - 测试时扩展技术在大致相同的token消耗下,持续优于标准的并行采样与聚合方法,在多个基准上实现显著提升:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3) [11] - 这些技术改善了模型处理复杂任务时的自主规划、推理链构建和决策能力 [12] 产品与市场反馈 - 千问App PC端和网页端已第一时间上线该模型,可供免费体验,同时API(qwen3-max-2026-01-23)也已开放 [13] - 社交平台上的讨论显示,用户对Qwen在推理能力和更新速度上的认可度较高 [14][21] - 有观点认为通义千问团队在模型更新和能力披露上的频率“已经超过了OpenAI”,这种高密度的迭代和公开沟通被视为对开发者更友好的信号 [17] - 部分讨论开始从“模型是否强”延伸到“产品体验、生态建设是否匹配当前能力”,反映出外界对公司的期待正转向更完整的产品与平台层面 [21][22] - 有海外开发者表示已习惯看到Qwen在多个榜单上“反超”其他模型 [15]