实用化能力
搜索文档
Kimi K2 Thinking,是月之暗面的“复仇”
钛媒体APP· 2025-11-11 22:30
公司技术发布与市场定位 - 月之暗面发布里程碑式开源思考模型Kimi K2 Thinking,直接对标GPT-5、Claude 4.5 Sonnet等顶尖闭源模型 [1] - 此次发布被视为“DeepSeek时刻”,即开源模型再次超越闭源模型,确立了公司在大模型第一梯队的地位 [1][2] - 模型拥有1万亿参数规模,采用384个专家混合架构,以“思考型智能体”为目标打造 [8] 模型核心能力与性能表现 - 模型在多项基准测试上取得领先成绩:在带工具的HLE中达到44.9%,在BrowseComp上达到60.2%,在SWE-Bench Verified上达到71.3% [9] - 能够在没有人工干预的情况下连续执行200到300次工具调用,并在数百步的链式推理中保持连贯 [8] - 在编码和软件开发任务上表现显著提升,尤其在HTML、React及前端任务上突出,能执行复杂多步骤开发工作流 [11] - 通过后训练阶段的量化感知训练和INT4量化,实现生成速度提升约2倍,同时保持顶尖性能 [12] 技术策略与研发方法 - 团队采用未经广泛验证的Muon优化器,但通过严格遵循缩放定律的验证流程确保稳定性 [5] - 使用Infiniband互联的H800 GPU,在严格预算下最大化硬件利用率 [5] - 训练成本难以量化,传闻的460万美元并非官方数字,强调预训练包含大量研究探索和失败实验 [4] - 数据选择被视为一门艺术,强调数据间的交互效应并以实验为准 [5] 未来发展方向与规划 - 团队正在研究新架构KDA,并可能在K3模型中投入使用 [7] - 不排斥进一步开源更多组件,包括安全对齐技术栈,但需确保不被滥用 [7] - 对于1M上下文窗口,因服务成本过高暂未推出,未来版本可能重新引入 [6] - 正在探索如何在保持安全的前提下降低不必要的审查力度,对NSFW内容持开放态度但需可靠年龄验证机制 [6]