Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒

产品发布与定位 - 阿联酋穆罕默德·本·扎耶德人工智能大学与初创公司G42 AI合作推出开源大模型K2 Think [1] - 该模型定位为全球最快的开源大模型及有史以来最先进的开源AI推理系统 [1][2] - K2 Think基于Qwen 2.5-32B模型打造，参数规模为320亿 [1] 性能表现 - 模型实测生成速度极高，在处理IMO试题时达到2730.4 tokens/秒，处理英文单词问题时保持2224.7 tokens/秒 [3][4] - 所有测试问题均能保持超过2000 tokens/秒的生成速度，且答案正确 [7] - 在多项数学基准测试中表现优异，例如AIME'24得分90.83分，AIME'25得分81.24分，HMMT25得分73.75分，Omni-MATH-HARD得分60.73分 [9] 技术特点与创新 - 模型专注于数学推理能力开发，目前尚不支持文档传输及多模态功能 [7] - 团队通过六项技术创新实现高性能：长链路思维的监督微调、可验证奖励的强化学习、推理前的智能规划、推理时扩展、推测解码以及硬件加速 [12][14] - 硬件方面依托Cerebras WSE晶圆级引擎，实现单请求每秒超2000 tokens的生成速度 [14] 行业影响与比较 - 尽管参数规模仅为32B，但官方宣称其性能可与OpenAI和DeepSeek的旗舰推理模型相媲美 [9] - 模型吞吐量超过典型GPU部署的10倍以上 [1]