阿里发布千问最强模型，多项测试获全球第一

阿里发布千问旗舰推理模型Qwen3-Max-Thinking - 公司于1月26日正式发布千问旗舰推理模型Qwen3-Max-Thinking，该模型总参数量超1万亿，预训练数据量高达36T Tokens，是公司规模最大、能力最强的千问推理模型 [1] - 在涵盖事实知识、复杂推理等19个公认的大模型基准测试中，该模型刷新了数项最佳表现纪录，整体性能可媲美GPT-5.2-Thinking、Claude Opus 4.5和Gemini 3 Pro等顶尖模型 [1] - 该模型增强了自主调用工具的原生Agent能力，通过联合强化学习训练，使其拥有更智能结合工具进行思考的能力 [1] 模型技术特点与性能表现 - 模型更新主要引入了自适应工具调用能力和测试时扩展技术 [3] - 自适应工具调用能力使模型能自主选择并调用其内置的搜索、记忆和代码解释器功能，无需用户手动选择联网，可提升个性化回复并减少信息幻觉 [3] - 测试时扩展技术能有效降低AI重复劳动带来的算力损耗，通过提炼过往推理轮次的关键洞见，避免重复推导，在相同上下文窗口内实现更高的信息利用效率 [3] - 在中文权威测评C-Eval中，该模型以93.7分稳居全球第一 [6] - 在对抗性复杂交互测试中，该模型得到90.2分，大幅领先GPT5.2的85.3分和Gemini 3 Pro的81.7分 [6] - 在智能体工具搜索测试中，该模型以49.8分夺冠，击败GPT5.2-Thinking版本 [6] 模型发布与后续规划 - 该模型代表着Qwen3系列模型的收尾，后续千问将迈向下一代模型的开发 [2] - 开发者可在QwenChat上免费体验该模型，企业可通过阿里云百炼获取新模型API服务，普通用户也可通过千问PC端和网页端试用 [2] - 千问APP即将接入新模型，后续所有用户均可体验 [7] 千问APP生态接入与功能拓展 - 千问APP已全面接入淘宝、支付宝、飞猪、高德等阿里生态业务，实现点外卖、购物、订机票等AI购物功能，并向所有用户开放测试 [7] - 此次升级将上线超过400项AI办事功能，AI开始具备触达真实世界的能力 [7] - 千问APP在依靠世界知识的基础上，还可以利用阿里巴巴的交易和服务数据来增强模型，以保障AI购物功能的客观和准确 [7] - 生活服务层面，千问APP已接入支付宝政务服务，并实现跨应用协同能力 [7] - 基于千问底层技术能力的“任务助理”功能已在APP和Web端启动定向邀测，具备类人化的多步骤规划能力，覆盖应用开发、Office办公、咨询调研及生活办事等核心场景，测试结束后将面向用户免费开放 [8] 公司AI战略与投入 - 公司计划在未来几个月内，在千问应用中逐步增加智能体AI功能，以支持包括主要淘宝市场在内的平台上的购物功能 [8] - 公司计划最终通过海外版本向全球扩张，在过去几个月里，公司CEO已从各部门调集了超过百名开发人员投入到此次项目中 [9] - 此次投入是2025年公司宣布的额外AI基础设施投入的一部分，反映了公司既要开发服务，也要开发支撑该技术的基础设施的意图 [9]