参数破万亿！阿里Qwen3-Max-Thinking发布，编程能力“踢馆”Gemini与Claude

模型发布与核心规格 - 阿里通义团队发布迄今规模最大、能力最强的旗舰语言模型Qwen3-Max-Thinking正式版 [1] - 模型总参数规模超过1万亿（1T），预训练数据规模高达36T Tokens，覆盖大量高质量语料 [1] - 该版本包括Base、Instruct和Thinking多种形式 [2] 性能表现与基准测试 - 在包含事实科学知识、复杂推理和编程能力在内的19项权威基准测试中取得极高水平，综合表现可媲美GPT-5.2-Thinking、Claude-Opus-4.5及Gemini-3 Pro等业内领先模型 [4][7] - 在数学推理基准测试中，曾在预览阶段实现AIME 25和HMMT 25满分（即100%准确率） [7] - 在多项关键AI基准测试中达到或刷新了全球SOTA表现，覆盖科学知识问答（如GPQA Diamond）、数学推理（如IMO等级测试）、代码编程（如LiveCodeBench）等多个领域 [6] - 相较于此前的Instruct版本，Thinking版本在Agent工具调用、复杂逻辑和深度推理任务中表现出更优的能力 [7] 核心技术创新 - 引入自适应工具调用能力，模型能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能，无需用户手动选择工具 [9][10] - 引入测试时扩展技术，在推理阶段分配额外计算资源以提升模型性能，采用经验累积式、多轮迭代的策略 [11] - 测试时扩展技术在大致相同的token消耗下，持续优于标准的并行采样与聚合方法，在多个基准上实现显著提升：GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3) [11] - 这些技术改善了模型处理复杂任务时的自主规划、推理链构建和决策能力 [12] 产品与市场反馈 - 千问App PC端和网页端已第一时间上线该模型，可供免费体验，同时API（qwen3-max-2026-01-23）也已开放 [13] - 社交平台上的讨论显示，用户对Qwen在推理能力和更新速度上的认可度较高 [14][21] - 有观点认为通义千问团队在模型更新和能力披露上的频率“已经超过了OpenAI”，这种高密度的迭代和公开沟通被视为对开发者更友好的信号 [17] - 部分讨论开始从“模型是否强”延伸到“产品体验、生态建设是否匹配当前能力”，反映出外界对公司的期待正转向更完整的产品与平台层面 [21][22] - 有海外开发者表示已习惯看到Qwen在多个榜单上“反超”其他模型 [15]