Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!
量子位·2025-09-10 18:01
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 全球最快 的开源大模型来了——速度达到了 每秒2000个tokens! 虽然只有320亿参数(32B),吞吐量却是超过典型GPU部署的10倍以上的那种。 它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)和初创公司G42 AI合作推出的 K2 Think 。 名字是不是有点熟悉? 没错,它和月之暗面前不久推出的Kimi K2在命名上是有点小撞车,不过阿联酋这个多了个"Think"。 但非常有意思的一点是,在K2 Think的背后,确实有 "made in China" 的味道。 因为从HuggingFace中的Model tree来看,K2 Think是基于 Qwen 2.5-32B 打造的: 目前,K2 Think已经给出了可以体验的地址(见文末)。 我们先小试牛刀测试一把IMO的试题: Let a_n = 6^n + 8^n. Determine the remainder when dividing a_{83} by 49. 可以肉眼看到,在没有任何加速的情况下,K2 Think在思考过后输出答案的速度,真的就是"啪的一下"。 从底部 ...