Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……
量子位·2025-11-04 11:32
数学推理能力 - Qwen3-Max-Thinking在AIME 25和HMMT25数学竞赛中达到100%准确率 [3] - 该模型在AIME 25测试中成绩为91%,超越GPT-5 Codex的98.7%和GPT-5的94.3% [6] - 模型成功解答IMO竞赛题,求所有实数α使得整数序列为n的倍数 [16] 编程与代码生成能力 - 模型一次成功编写Python程序实现小球在旋转六边形内弹跳的物理效果 [12][13][15] - 能够使用Three.js构建3D太阳系,但初始版本存在功能不完整问题,经提醒后优化了前端效果 [20][22][23] 产品状态与可用性 - Qwen3-Max-Thinking为早期预览版,目前仍在训练中 [3][9] - 该版本已在Qwen Chat提供免费试用,API同步上线阿里云 [9][31] - 模型在Thinking模式下思考时间较长,可能出现中英文混合思考情况 [25] 技术特点与行业影响 - 模型被描述为"半成品模型"但已展现强大数学推理能力 [1] - 有观点认为该模型完成度令人难以置信,在OpenAI内部动荡之际实现技术突破 [8]