Workflow
阿里通义千问(Qwen)
icon
搜索文档
性能比肩Gemini 3 Pro!昨晚,阿里千问最强模型来了
机器之心· 2026-01-27 12:59
模型发布与性能定位 - 阿里于1月26日正式上线其旗舰推理模型Qwen3-Max-Thinking [1] - 该模型在多项权威基准测试中刷新纪录,综合性能可对标国际顶尖模型GPT-5.2与Gemini 3 Pro,成为最接近国际顶尖水平的国产大模型之一 [1] - 模型总参数量超1万亿,预训练数据量高达36T Tokens,是阿里目前规模最大、能力最强的推理模型 [4] 基准测试表现 - 在知识(Knowledge)评测中,Qwen3-Max-Thinking在C-Eval基准上得分为93.7,表现优于GPT-5.2-Thinking的90.5和Gemini 3 Pro的93.4 [4] - 在STEM评测中,该模型在GPQA基准上得分为87.4,优于Claude Opus-4.5的87.0和DeepSeek V3.2的82.4 [4] - 在推理(Reasoning)评测中,模型在LiveCodeBench v6上得分为85.9,在HMMT Feb 25上得分为98.0,在IMOAnswerBench上得分为83.9 [4] - 在指令遵循与对齐(Instruction Following & Alignment)评测中,模型在Arena-Hard v2 3基准上以90.2的得分显著领先于其他对比模型 [4] - 在Agentic Search评测中,模型在HLE (w/ tools) 2基准上以49.8的得分领先于GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8 [4] - 在覆盖事实知识、复杂推理、指令遵循等19项主流评测基准中,Qwen3-Max-Thinking取得多项领先成绩,综合表现已进入与GPT-5.2-Thinking-xhigh、Claude Opus 4.5、Gemini 3 Pro同一竞争梯队 [5] 技术能力与创新 - 模型核心创新在于采用由测试时扩展驱动的Heavy Mode,这是一种经验累积的多轮推理策略,更接近人类的解题过程 [13] - 该技术让模型能够用更多算力换取更高智能水平,通过专有的take-experience机制,从先前的推理步骤中提炼有效经验,实现识别死胡同和聚焦算力,避免冗余推理 [13] - 该方法在不显著增加token成本的前提下实现了性能大幅跃升,例如在GPQA基准上得分从90.3提升至92.8,在LiveCodeBench v6上成绩从88.0提升至91.4 [16] - 模型将工具能力内生进思考过程本身,构建起边思考、边行动的原生Agent式模型框架,通过引入基于规则奖励与模型奖励的联合强化学习训练,获得了更具策略性的自适应工具调用能力 [14] - 自适应工具调用能力已在QwenChat中完整落地,模型可自主调度搜索、个性化记忆与代码解释器等核心Agent工具,在一次交互中完成信息获取、计算推演与结论生成 [14] 实际应用演示 - 在代码生成测试中,模型能根据“做一个技能五子棋的游戏网页”的提示,快速生成1000多行完整、可交互的HTML代码 [7] - 在另一项测试中,模型能根据详细需求生成一个纯HTML+CSS+原生JavaScript编写的、可在浏览器直接运行的《跳一跳》小游戏,该游戏要求实现蓄力操作、随机平台生成、计分规则等复杂功能 [10] 市场地位与影响 - 截至2026年1月,阿里通义千问系列模型在Hugging Face平台上的累计下载量超过了10亿次,成为该平台上最受欢迎、下载量最高的开源AI模型系列之一 [15] - Qwen3-Max-Thinking的推出将行业讨论焦点从谁拥有最智能的聊天机器人转移到谁拥有功能最强大的智能体 [15] - 通过将高效率推理能力与自适应、自主的工具调用机制相结合,Qwen已经牢牢确立了自己在企业级AI竞争格局中的领先地位 [15]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]