Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒
36氪·2025-09-10 20:19
全球最快的开源大模型来了——速度达到了每秒2000个tokens! 虽然只有320亿参数(32B),吞吐量却是超过典型GPU部署的10倍以上的那种。 它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)和初创公司G42 AI合作推出的K2 Think。 名字是不是有点熟悉? 没错,它和月之暗面前不久推出的Kimi K2在命名上是有点小撞车,不过阿联酋这个多了个"Think"。 但非常有意思的一点是,在K2 Think的背后,确实有"made in China"的味道。 因为从HuggingFace中的Model tree来看,K2 Think是基于Qwen 2.5-32B打造的: 而且"全球最快开源AI模型"之外,MBZUAI官方还称自家的K2 Think是"有史以来最先进的开源 AI 推理系统"。 那么它的实力到底几何?我们继续往下看。 实测速度均超过2000 tokens/秒 目前,K2 Think已经给出了可以体验的地址(见文末)。 我们先小试牛刀测试一把IMO的试题: Let a_n = 6^n + 8^n. Determine the remainder when dividing a_ ...