那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线
量子位·2026-01-26 23:30

阿里千问发布Qwen3-Max-Thinking模型 - 阿里千问正式发布Qwen3-Max-Thinking模型,在涵盖科学知识、数学推理、代码编程的19项权威基准测试中,赶上甚至超越了GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶级闭源模型 [1] - 该模型的总参数超过1万亿(1T),预训练数据量高达36万亿(36T)Tokens,并进行了大规模强化学习后训练 [3] - 模型通过引入“自适应工具调用”和“测试时扩展”两项技术创新,显著提升了推理性能和调用工具的原生Agent能力 [3][13] 模型性能与基准测试结果 - 在知识能力方面,于C-Eval基准测试中得分为93.7,超越GPT-5.2-Thinking的90.5和Claude-Opus-4.5的92.2 [2] - 在推理能力方面,于IMO难度级别的数学能力测试基准IMO-AnswerBench上取得91.5分,为全场最高分 [32] - 在启用工具的“人类最后的测试”HLE中得分为58.3,超过GPT-5.2-Thinking的45.5以及Gemini 3 Pro的45.8,刷新SOTA [31] - 在指令遵循与对齐方面,于Arena-Hard v2基准测试中得分为90.2,显著高于其他对比模型 [2] - 该模型的“早期预览版”曾在AIME 25和HMMT 25(哈佛-MIT数学竞赛)中达到100%的准确率 [2] 核心技术创新细节 - 自适应工具调用:模型能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能,无需用户手动选择 [22] - 该能力允许模型自主上网收集资料,并调用代码解释器进行数据分析和绘图,以完成复杂任务 [15] - 搜索和记忆工具能有效缓解幻觉,提供实时信息访问,代码解释器允许执行代码片段以解决复杂问题 [25] - 测试时扩展技术:一种在推理阶段分配额外计算资源以提升模型性能的技术 [27] - 阿里团队采用“经验积累式、多轮迭代的测试时扩展策略”,限制并行推理路径数量,将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思,专注于未解决的不确定性,提升了推理效率和上下文利用效率 [28][29][30] - 实验证明,在大致相同的token消耗下,该方法优于标准的并行采样与聚合方法 [31] 实际应用能力展示 - 复杂代码生成:能够根据复杂提示词创建基于浏览器、结合摄像头手部追踪的气球射击游戏,并实现细节要求如状态提示和高亮提醒 [7][8][12] - 金融研究与分析:能够根据用户指令(如分析内存涨价对股票的影响),自主完成资料收集、数据分析和报告生成,在一分钟内产出包含原因、产业分析和走势判断的完整报告 [14][16] - 多工具协同:能够理解复杂指令(如搜索《醉翁亭记》全文并用代码解释器替换文字),并自主调用搜索引擎和代码解释器完成任务 [23][24] 中国开源AI模型影响力 - 根据MIT-Hugging Face数据,在全球220亿次模型下载行为中,中国开源AI模型的采用份额已跃升至17.1%,超过了美国的15.8% [36] - 在过去一年内新发布的模型中,中国模型的下载量稳居第一 [37] - 阿里千问系列衍生模型数量突破20万个,成为全球首个达成此目标的开源大模型 [39] - 千问系列模型下载量突破10亿次,平均每天被下载110万次,完全超越Llama,成为全球AI开源界的新标杆 [39] - 从迭代频率、下载量和社区影响力来看,千问系列拔得头筹 [40] 模型生态与商业化结合 - Qwen3-Max-Thinking模型已在千问APP的PC端、网页端免费上线,同时开放了API(qwen3-max-2026-01-23) [4] - 千问APP已全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务 [43] - 行业趋势显示,模型厂商的新着力点是将顶尖模型能力与应用生态体系做更深入的结合 [42] - 预计2026年基础模型将持续增强,并更深入地与垂直领域及实际生活结合,展现更多应用可能 [44]

那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线 - Reportify