模型发布与核心能力 - 阿里发布最新推理模型Qwen3-Max-Thinking的早期预览版,该模型是Qwen3-Max-Preview的推理增强版本,目前仍是训练中的中间检查点模型 [2] - 当结合工具使用功能并提升测试计算规模后,该模型在AIME 2025、HMMT等高难度数学推理竞赛中实现100%的正确率 [2] - Qwen3-Max-Preview是阿里迄今为止规模最大、能力最强的语言模型,参数量在1万亿以上,预训练数据达到36T tokens,支持262144个token的上下文窗口 [7] 性能基准测试与市场定位 - 在SuperGPQA、AIME25、LiveCodeBench v6、Arena-Hard v2及LiveBench等测试中,Qwen3-Max-Preview的排名始终高于Claude Opus 4、Kimi K2和Deepseek-V3.1 [7] - 有外媒测试称该模型规避了LLM常见缺陷,如错误统计单词字母出现次数,且响应速度极快,在Qwen Chat上的初步测试速度比ChatGPT更快 [8] - 该模型专为复杂推理、代码编写、处理JSON等结构化数据及创意类任务设计,能力延伸至通用对话与智能体行为,定位为适用于企业与科研场景的多用途工具 [12] 实测反馈与能力评估 - 有开发者实测反馈,在处理简单提示词时Qwen3-Max-Thinking表现优于复杂场景,在部分推理题上表现超过GPT-5 Thinking [16] - 知名AI云工程师测试其创建p5.js独立HTML文件,第一次尝试就几乎完成代码创建,效果相当不错 [16] - 但也有开发者指出其在编程任务上表现一般,前端布局能力差,卡片布局混乱,短期内不建议用于处理编程类任务 [18][21] - 在“大象牙膏”实验测试中场景建模和粒子效果一般,鞭炮连锁爆炸测试完全不合格,6次生成中仅1次无代码错误 [20] 商业模式与获取方式 - 与以往开源版本不同,Qwen3-Max-Preview未基于开源许可证发布,开发者需通过付费API或分销合作伙伴获取使用权 [12] - 阿里云推出分级定价方案:0–32K token每百万输入0.861美元,输出3.441美元;32K–128K token每百万输入1.434美元,输出5.735美元;128K–252K token每百万输入2.151美元,输出8.602美元 [13]
Qwen“半成品”推理模型刷下AIME满分,俘获大批国外开发者!实测碾压GPT-5 Thinking、还能写侦探小说