模型发布与定位 - 阿里于1月26日正式发布旗舰推理模型Qwen3-Max-Thinking [6] - 该模型被定位为迄今为止最接近国际顶尖模型的国内最强AI大模型,性能媲美GPT-5.2-Thinking和Gemini 3 Pro [6] 模型规模与技术架构 - 模型总参数量超万亿(1T),预训练数据量高达36T Tokens,是阿里规模最大、能力最强的千问推理模型 [1] - 通过总参数、强化学习、推理计算的极致规模扩展实现性能大幅飞跃 [3] 性能表现与基准测试 - 模型刷新了科学知识、数学推理、代码编程等多项关键性能基准测试的全球纪录 [3] - 在启用工具的“人类最后的测试”(HLE)中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8,录得当前所有模型的最高分 [4] 核心技术创新:推理能力 - 模型采用了一种全新的测试时扩展(Test-time Scaling)机制,在提升推理性能的同时更经济 [4] - 该机制可对先前推理结果进行“经验提取”式提炼,并据此进行多轮自我迭代,在相同上下文中实现更高效的计算和更智能的结果,解决了业界普遍存在的冗余推理效率低下问题 [4] 核心技术创新:智能体(Agent)能力 - 模型大幅增强了自主调用工具的原生Agent能力,面向即将到来的智能体时代 [5] - 在工具使用微调后,通义团队进一步对模型进行了基于规则奖励与模型奖励的联合强化学习训练,使其拥有更智能结合工具进行思考的能力 [5] - 该自适应工具调用能力可在QwenChat上体验,模型能自主选用搜索、个性化记忆和代码解释器三个核心Agent工具功能,提供专业水平的回答,同时大幅降低模型幻觉 [5] 产品与市场策略 - 开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型 [7] - 企业可通过阿里云百炼获取新模型API服务 [7] - 普通用户可通过千问PC端和网页端试用模型 [7] - 千问App也即将接入新模型,所有用户都可免费体验 [7]
千问最强模型来了!多项性能破全球纪录