模型性能表现 - Kimi K2 Thinking模型在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [3] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9% [3] - 在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [3] - 模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性 [4] - 通过端到端的智能体强化学习训练,使模型在数百个步骤的工具调用过程中保持良好性能 [5] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [3] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,使得生成速度提升约2倍 [8] - 选择INT4是为了更好地兼容"非Blackwell GPU",同时利用现有的INT4推理marlin内核 [8] - 团队使用配备Infiniband的H800 GPU集群,在算力规模不占优势条件下将每张显卡性能压榨到极致 [7][8] - 下一代K3模型计划引入KDA实验性架构,该线性注意力模块在所有评估维度都展现出性能提升 [12] 市场影响与竞争格局 - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著性价比竞争力 [10] - 在OpenRouter近一周模型调用榜单前二十名中,中国模型已占据七席 [10][11] - Kimi K2与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token [10] - 公司坚持开源策略,认为开源是促进团结而非分裂的事情 [10] - 从欧洲到北美,从亚洲到非洲,越来越多开发者正在调试基于Kimi K2 Thinking的应用 [10]
国产大模型在多项基准测试中超越GPT-5
21世纪经济报道·2025-11-15 17:49