国产大模型在多项基准测试中超越GPT-5
21世纪经济报道·2025-11-15 18:00

文章核心观点 - 月之暗面发布Kimi K2 Thinking模型,在多项基准测试中表现超越GPT-5,引发全球AI社区关注 [1] - 公司通过优秀的工程优化能力,在算力资源相对有限的条件下实现模型性能的极致压榨 [6] - 开源策略助力中国AI大模型获得更广泛的国际认可,并在全球开发者中快速普及 [8] 模型性能表现 - Kimi K2 Thinking模型在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [3] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9% [3] - 在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [3] - 模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性 [4] - 采用端到端的智能体强化学习训练,使模型在数百个步骤的工具调用过程中保持良好性能 [4] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [3] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,生成速度提升约2倍 [6] - 使用配备Infiniband的H800 GPU集群,在算力规模不占优势的情况下实现极致性能压榨 [6] - 团队优先考虑绝对性能而非代币效率,后续会将效率纳入奖励机制 [6] 市场表现与行业影响 - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著性价比竞争力 [8] - 在OpenRouter近一周模型调用榜单前二十中,中国模型已占据七席 [8][9] - Kimi K2与Grok4登上增长榜前两名,日处理量突破100亿Token [8] - 当Cursor禁止中国IP调用Claude后,Kimi K2调用量大幅攀升 [8] 未来发展计划 - 团队正计划在K3中引入重大的架构变革,KDA实验性架构很可能在K3中使用 [10] - KDA在实验中表现出色,在所有评估维度上都展现出性能提升 [10] - 公司表示将在OpenAI建成千亿级美元数据中心之前推出K3模型 [10]