产品发布与定位 - 月之暗面发布并开源Kimi K2 Thinking模型,主打“模型即Agent”概念,是公司迄今能力最强的开源思考模型[1] - 模型具备边思考边使用工具的能力,无需人工干预即可执行200-300次连续工具调用[1] - 该版本上线后成为热议对象,被认为再次缩小了开源模型与闭源模型的差距[3] 核心技术参数 - 模型采用1TB参数规模,激活参数为32B,并采用INT4量化而非FP8精度[5] - 支持256K上下文窗口,采用更多专家、更少注意力头、更多思考的设计[5] - 通过测试时扩展技术同时扩展思考Token和工具调用轮次,实现更强的Agent和推理性能[8] - 采用量化感知训练和对MoE组件应用INT4纯权重量化,使模型支持原生INT4推理,生成速度提升约2倍[26] 性能基准测试表现 - 在人类最后的考试中,Kimi K2 Thinking在允许使用工具的情况下取得44.9%的SOTA成绩[9] - 在BrowseComp基准测试中取得60.2%的成绩,显著超过人类平均智能29.2%的水平[18] - 在²-Bench Telecom智能体工具使用基准中达到SOTA,成绩从K2 Instruct的73%提升至93%[15] - 在HLE、BrowseComp和SEAL-0等评测基准中均刷新SOTA,超越GPT-5、Claude Sonnet 4.5等闭源模型[10] 智能体与工具调用能力 - 模型可借助上百轮的“思考→搜索→浏览网页→思考→编程”动态循环,持续提出并完善假设、验证证据、进行推理[20] - 具备将模糊开放式问题分解为清晰可执行子任务的能力,展现出“刨根问底”的钻研特性[20] - 官方示例显示模型通过23次推理和工具调用成功解决博士级别数学问题[13] 编程与开发能力 - 在SWE-Multilingual、SWE-bench验证集和LiveCodeBench等编程测试中与最强闭源模型表现相当[21] - 处理HTML、React及组件丰富的前端任务时性能明显提升,能将创意转变为功能齐全、响应式的产品[23] - 在Agentic Coding场景中能灵活融入software agents,处理复杂多步骤的开发工作流,如复刻Word文字编辑器[23] 通用能力升级 - 创意写作能力显著提升,能将粗略灵感转化为清晰动人且意图明确的叙述,保持长篇内容的风格连贯性[25] - 学术研究领域在分析深度、信息准确性和逻辑结构方面均有提升,擅长处理学术论文和技术摘要[25] - 回应个人或情感类问题时更富同理心,能提供细致入微的观点和切实可行的建议[25] 部署与生态建设 - 模型代码和权重遵循最宽松的MIT协议,已上线kimi.com和最新版Kimi手机应用[10] - API可通过Kimi开放平台访问,项目地址和技术博客已公开[38] - INT4量化设计对推理硬件兼容性更强,特别对国产加速计算芯片更友好[27]
Kimi K2 Thinking突袭,智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距
36氪·2025-11-07 11:07