Qwen“半成品”推理模型刷下AIME满分，俘获大批国外开发者！实测碾压GPT-5 Thinking、还能写侦探小说

模型发布与核心能力 - 阿里发布最新推理模型Qwen3-Max-Thinking的早期预览版，该模型是Qwen3-Max-Preview的推理增强版本，目前仍是训练中的中间检查点模型 [2] - 当结合工具使用功能并提升测试计算规模后，该模型在AIME 2025、HMMT等高难度数学推理竞赛中实现100%的正确率 [2] - Qwen3-Max-Preview是阿里迄今为止规模最大、能力最强的语言模型，参数量在1万亿以上，预训练数据达到36T tokens，支持262144个token的上下文窗口 [7] 性能基准测试与市场定位 - 在SuperGPQA、AIME25、LiveCodeBench v6、Arena-Hard v2及LiveBench等测试中，Qwen3-Max-Preview的排名始终高于Claude Opus 4、Kimi K2和Deepseek-V3.1 [7] - 有外媒测试称该模型规避了LLM常见缺陷，如错误统计单词字母出现次数，且响应速度极快，在Qwen Chat上的初步测试速度比ChatGPT更快 [8] - 该模型专为复杂推理、代码编写、处理JSON等结构化数据及创意类任务设计，能力延伸至通用对话与智能体行为，定位为适用于企业与科研场景的多用途工具 [12] 实测反馈与能力评估 - 有开发者实测反馈，在处理简单提示词时Qwen3-Max-Thinking表现优于复杂场景，在部分推理题上表现超过GPT-5 Thinking [16] - 知名AI云工程师测试其创建p5.js独立HTML文件，第一次尝试就几乎完成代码创建，效果相当不错 [16] - 但也有开发者指出其在编程任务上表现一般，前端布局能力差，卡片布局混乱，短期内不建议用于处理编程类任务 [18][21] - 在“大象牙膏”实验测试中场景建模和粒子效果一般，鞭炮连锁爆炸测试完全不合格，6次生成中仅1次无代码错误 [20] 商业模式与获取方式 - 与以往开源版本不同，Qwen3-Max-Preview未基于开源许可证发布，开发者需通过付费API或分销合作伙伴获取使用权 [12] - 阿里云推出分级定价方案：0–32K token每百万输入0.861美元，输出3.441美元；32K–128K token每百万输入1.434美元，输出5.735美元；128K–252K token每百万输入2.151美元，输出8.602美元 [13]