性能比肩Gemini 3 Pro!昨晚,阿里千问最强模型来了
机器之心·2026-01-27 12:59

模型发布与性能定位 - 阿里于1月26日正式上线其旗舰推理模型Qwen3-Max-Thinking [1] - 该模型在多项权威基准测试中刷新纪录,综合性能可对标国际顶尖模型GPT-5.2与Gemini 3 Pro,成为最接近国际顶尖水平的国产大模型之一 [1] - 模型总参数量超1万亿,预训练数据量高达36T Tokens,是阿里目前规模最大、能力最强的推理模型 [4] 基准测试表现 - 在知识(Knowledge)评测中,Qwen3-Max-Thinking在C-Eval基准上得分为93.7,表现优于GPT-5.2-Thinking的90.5和Gemini 3 Pro的93.4 [4] - 在STEM评测中,该模型在GPQA基准上得分为87.4,优于Claude Opus-4.5的87.0和DeepSeek V3.2的82.4 [4] - 在推理(Reasoning)评测中,模型在LiveCodeBench v6上得分为85.9,在HMMT Feb 25上得分为98.0,在IMOAnswerBench上得分为83.9 [4] - 在指令遵循与对齐(Instruction Following & Alignment)评测中,模型在Arena-Hard v2 3基准上以90.2的得分显著领先于其他对比模型 [4] - 在Agentic Search评测中,模型在HLE (w/ tools) 2基准上以49.8的得分领先于GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8 [4] - 在覆盖事实知识、复杂推理、指令遵循等19项主流评测基准中,Qwen3-Max-Thinking取得多项领先成绩,综合表现已进入与GPT-5.2-Thinking-xhigh、Claude Opus 4.5、Gemini 3 Pro同一竞争梯队 [5] 技术能力与创新 - 模型核心创新在于采用由测试时扩展驱动的Heavy Mode,这是一种经验累积的多轮推理策略,更接近人类的解题过程 [13] - 该技术让模型能够用更多算力换取更高智能水平,通过专有的take-experience机制,从先前的推理步骤中提炼有效经验,实现识别死胡同和聚焦算力,避免冗余推理 [13] - 该方法在不显著增加token成本的前提下实现了性能大幅跃升,例如在GPQA基准上得分从90.3提升至92.8,在LiveCodeBench v6上成绩从88.0提升至91.4 [16] - 模型将工具能力内生进思考过程本身,构建起边思考、边行动的原生Agent式模型框架,通过引入基于规则奖励与模型奖励的联合强化学习训练,获得了更具策略性的自适应工具调用能力 [14] - 自适应工具调用能力已在QwenChat中完整落地,模型可自主调度搜索、个性化记忆与代码解释器等核心Agent工具,在一次交互中完成信息获取、计算推演与结论生成 [14] 实际应用演示 - 在代码生成测试中,模型能根据“做一个技能五子棋的游戏网页”的提示,快速生成1000多行完整、可交互的HTML代码 [7] - 在另一项测试中,模型能根据详细需求生成一个纯HTML+CSS+原生JavaScript编写的、可在浏览器直接运行的《跳一跳》小游戏,该游戏要求实现蓄力操作、随机平台生成、计分规则等复杂功能 [10] 市场地位与影响 - 截至2026年1月,阿里通义千问系列模型在Hugging Face平台上的累计下载量超过了10亿次,成为该平台上最受欢迎、下载量最高的开源AI模型系列之一 [15] - Qwen3-Max-Thinking的推出将行业讨论焦点从谁拥有最智能的聊天机器人转移到谁拥有功能最强大的智能体 [15] - 通过将高效率推理能力与自适应、自主的工具调用机制相结合,Qwen已经牢牢确立了自己在企业级AI竞争格局中的领先地位 [15]

性能比肩Gemini 3 Pro!昨晚,阿里千问最强模型来了 - Reportify