Workflow
线性注意力模块KDA
icon
搜索文档
“人类最后的考试”,中国模型赢了GPT-5
21世纪经济报道· 2025-11-15 16:01
模型性能表现 - 月之暗面推出Kimi K2 Thinking模型,在多项基准测试中表现超越GPT-5,在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [2] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9%,在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [2] - 模型能够自主实现高达300步的工具调用,无需人类干预,保证任务连续性 [2][3] - 模型采用端到端的智能体强化学习训练,使其在数百个步骤的工具调用过程中每个中间环节都保持良好性能 [4] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [2] - 支持"思考-工具-思考-工具"的交错执行模式,在大语言模型中属较新行为 [4] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,使生成速度提升约2倍 [7] - 团队使用配备Infiniband的H800 GPU集群,在算力资源相对有限的条件下通过工程优化极致压榨显卡性能 [5][6] 开源策略与国际影响 - 公司坚持开源策略,让中国AI大模型得到更广泛的国际认可 [7] - 开源模式有助于消除海外用户对"中国LLM"的风险疑虑 [9] - 在OpenRouter近一周模型调用榜单前二十名中,中国模型已占据七席,Kimi K2与Grok4登上增长榜前两名 [9] - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力 [7] 市场表现与采用情况 - 当Cursor禁止中国IP调用Claude等模型后,Kimi K2的调用量大幅攀升 [7] - Kimi K2日处理量突破100亿Token,显示出强劲的市场需求 [9] - 从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用 [9] 未来发展计划 - 公司已勾勒出下一代K3模型的发展蓝图,计划在K3中引入重大的架构变革 [10] - 实验性架构KDA在所有评估维度上都展现出性能提升,相关想法很可能会在K3中使用 [10] - 公司表示将在OpenAI建成千亿级美元数据中心之前推出K3模型 [10]