Workflow
AI大家说 | Kimi K2:全球首个完全开源的Agentic模型
红杉汇·2025-07-18 20:24

模型架构与技术特点 - 采用稀疏MoE架构,拥有1万亿总参数量,激活参数为320亿,包含384个专家,每个token选择8个专家进行计算,并设置1个共享专家提高通用性 [4] - 使用改进的MuonClip优化器,在15.5万亿tokens预训练规模下保持稳定,避免大模型常见的"训练崩溃"问题 [7] - 最大上下文长度达128K,擅长处理长文档理解、长对话及大规模检索任务 [8] 性能表现与基准测试 - 在SWE Bench Verified、Tau2、AceBench等测试中取得开源模型SOTA成绩,代码、Agent、数学推理能力领先 [8] - LiveCodeBench编程基准测试准确率53.7%,超越GPT-4.1(44.7%),OJBench得分27.1% [19] - SWE-bench Verified单次尝试准确率65.8%,超越多数开源模型 [21] - Tau2-bench加权平均值66.1%,AceBench英文测试准确率80.1%,MMLU-Pro多语言测试进入领先梯队 [25] 开源与商业化 - 模型权重和代码发布于Hugging Face与Github,采用MIT许可证,支持免费使用与修改 [24] - API定价为4元/百万输入tokens和16元/百万输出tokens,成本优势显著 [24] - 海外平台如OpenRouter、Cline、Visual Studio Code已宣布接入 [12] 行业影响与评价 - 英伟达创始人黄仁勋评价其为"全球最优秀推理模型之一",开源价值获全球认可 [9] - Hugging Face联合创始人称赞其突破闭源限制,《自然》期刊称其引发"DeepSeek时刻" [13][14] - Perplexity CEO计划基于K2进行后训练,科技媒体评价其"成本低廉、性能卓越" [12][16] 应用场景 - 擅长前端开发,可生成3D场景代码,支持粒子系统、可视化等复杂交互 [20] - 能自动解析13万行数据,生成统计图表与回归模型报告,适用于数据分析 [22] - 在EQ-Bench3情商测试与Creative Writing v3创意写作测试中登顶 [25]