模型性能与市场定位 - 月之暗面Kimi K2 Thinking模型在多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5 [1] - 模型API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5价格的四分之一 [9] - 发布后不到48小时内,模型在Hugging Face的下载量已超过5万次,成为该平台最热门的开源模型 [21] 技术架构与成本控制 - 模型采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍 [9] - 团队使用配备Infiniband的H800 GPU进行训练,强调对每张显卡性能的极致利用 [9] - 针对460万美元训练成本的传闻,公司回应称并非官方数据,且由于研究和实验成本占比较大,真实训练成本难以量化 [7][9] 产品特性与设计理念 - 当前版本更看重绝对性能而非token效率,模型能够连续执行200-300次工具调用来解决复杂问题 [11][13] - 采用端到端智能体强化学习训练方式,支持交错的“思考-工具”模式,这是开发过程中的主要挑战之一 [14] - 模型采用Modified MIT许可证,当被用于超过一亿月活用户或2000万美元月收入的商业产品时,需注明使用了Kimi K2模型 [18] 未来发展规划 - 对于K3的发布时间,公司给出了一个幽默且非具体的回应 [14] - 在多模态能力方面,公司决定先发布文本模型,因为训练视觉语言模型需要更多时间获取数据和调整训练 [15] - 公司透露KDA是其最新的实验性架构,相关理念可能应用于K3,该架构采用3:1的比例混合KDA和MLA路线,以优化性能、速度和显存占用 [22] 行业观点与竞争策略 - 公司拥抱开源,其理念是相信AGI应该是一种导致团结而不是分裂的追求 [17] - 对于是否会发布更大规模闭源模型,公司暗示会考虑模型安全性因素 [19] - 对于DeepSeek的OCR技术路线,公司联合创始人表达了不同看法,倾向于寻找更通用且与具体模态无关的方法来提升模型效率 [22]
再给老外亿点点震撼?Kimi杨植麟:啥时发K3? 奥特曼的万亿数据中心建成前
华尔街见闻·2025-11-12 21:05