AI产业跟踪:通义发布Qwen3-Max-Thinking早期预览版,关注后续模型演进与商业化进展

行业投资评级 - 投资评级:看好,维持 [8] 核心观点 - 阿里发布Qwen3-Max-Thinking早期预览版,模型仍在训练中,是训练的中间检查点 [2][5] - 模型在数学推理、智能体编程和常识推理等任务中表现出色,但存在token消耗量大、使用成本高的问题 [2] - 关注Qwen3-Max推理模型的后续发布与开源,中期看好Agent商业化进展 [2] - 重点推荐产业链上游的“铲子股”和卡位优势显著的行业巨头 [2] 事件描述 - 北京时间11月3日,阿里发布Qwen3系列旗舰推理模型Qwen3-Max-Thinking的早期预览版 [2][5] - 该模型当前未在Hugging Face、魔搭等平台开源,用户可在Qwen Chat和阿里云API中试用,仅支持文本到文本,输出“限时免费” [5] 模型性能与突破 - Qwen3-Max-Thinking是Qwen3-Max的推理增强版本,通过集成代码解释器和运用并行测试计算技术,展现出较强的推理能力 [11] - 模型实现思考模式与非思考模式的有效融合,在智能体编程、常识推理、数学、科学和通用领域的推理能力方面均有显著提升 [11] - 在AIME 25和HMMT25(哈佛-MIT数学竞赛)测试中达到100%准确率,标志着大模型在复杂逻辑推理能力上的质变 [11] - 对比来看,此前AIME 25的最好成绩为:GPT-5 Codex(high)准确率98.7%,GPT-5(high)为94.3%,GPT-OSS-120B为93.4%,Qwen3 235B为91.0% [11] 模型成本与使用 - 根据第三方实测,Qwen3-Max-Thinking早期预览版对token消耗较高,若非输出限免,使用成本可能较为高昂 [11] - 以同一智能体编程任务为例,DeepSeek-V3.2-Exp生成787行代码,而Qwen3-Max-Thinking生成1417行代码,消耗token数量明显偏多 [11] - 该问题可通过自带的思考预算控件解决,用户可在1024-81920个token的思考预算区间内切换,直接控制模型的推理长度 [11] 阿里Qwen3模型矩阵 - 阿里Qwen3家族已发布十余款模型,形成完整矩阵 [11] - 包含旗舰级大模型Qwen3-Max(超万亿参数、百万级上下文,分指令版和推理版)和新一代高效架构Qwen3-Next [11] - 此外还包括开源视觉语言模型Qwen3-VL、全模态模型Qwen3-Omni、编程模型Qwen3-Coder、翻译模型Qwen3-LiveTranslate、图像编辑模型Qwen3-Image-Edit、视频生成模型Wan-2.5、语音识别/合成模型通义百聆等 [11] 行业展望与投资建议 - 当前时点大模型商业化变现有望加速,但成本仍是制约token消耗量的核心因素,需关注未来模型厂商的降本效果 [11] - 中期继续看好国产AI产业链,重点推荐产业链上游的“铲子股”和卡位优势显著的行业巨头 [2][11]