模型发布与核心规格 - 公司正式发布其规模最大、能力最强的千问旗舰推理模型Qwen3-Max-Thinking [1] - 该模型总参数量超过1万亿(1T),预训练数据量高达36万亿(T)Tokens [1][6] - 模型通过总参数、强化学习、推理计算的极致规模扩展,实现了性能的大幅飞跃 [1] 性能表现与基准测试 - 在涵盖事实知识、复杂推理等19个公认的大模型基准测试中,模型刷新了数项最佳表现(SOTA)纪录,整体性能可媲美国际顶尖AI大模型 [7] - 预览版模型曾斩获数学推理AIME 25和HMMT 25的国内首个双满分 [6] - 在启用工具的“人类最后的测试”HLE中,模型得分58.3,大幅超过GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8,录得当前所有模型的最高分 [8] 技术创新与效率 - 模型采用全新的测试时扩展机制,在提升推理性能的同时更经济 [1][8] - 该机制可对先前推理结果进行“经验提取”式提炼并进行多轮自我迭代,实现更高效的推理计算 [8] - 基于此推理技术创新,模型的推理性能和推理效率均大为提升 [8] 原生Agent能力 - 模型大幅增强了自主调用工具的原生Agent能力,面向智能体Agent时代 [9] - 该自适应工具调用能力可在对话中自主选用「搜索」、「个性化记忆」和「代码解释器」三个核心Agent工具功能 [9] - 此能力源于专门设计的训练流程,包括工具使用微调及在大量多样化任务上进行的联合强化学习训练,使模型幻觉大为降低 [9] 获取与体验途径 - 开发者可在QwenChat上免费体验该模型,企业可通过阿里云百炼获取API服务,普通用户可通过千问PC端和网页端试用 [6] - 千问APP即将接入新模型,所有用户可免费体验 [6] 研究认可 - 公司通义千问团队的研究成果《Gated Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》荣获NeurIPS 2025最佳论文奖 [11] - 该奖项从全球5524篇投稿中仅评选出4篇最佳论文,该团队是唯一获奖的中国团队 [11]
阿里千问旗舰推理模型正式发布
观察者网·2026-01-27 09:47