模型发布与核心参数 - 月之暗面公司发布了Kimi K2.5模型,这是一个拥有1万亿参数(1 trillion)的MoE基础模型,并且依然保持开源[4] - 新模型相较前代,视觉理解能力大幅增强,可以处理视频,同时编程能力也有明显提升[4] 模型性能与基准测试 - 在极具挑战性的agent评测上取得当前最佳表现(SOTA),例如在HLE(人类最后考试)上拿到50.2%,在BrowseComp上拿到74.9%[4] - 编程能力突出,在SWE-bench Verified上拿到76.8%,缩小了与顶尖闭源模型之间的差距[4] - 在多项视觉理解评测上实现了当前开源最佳效果[4] - 在核心基准测试上,Kimi K2.5的成绩与Opus 4.5、GPT 5.2 XHigh和Gemini 3.0 Pro等当前最强大闭源模型基本相当,部分评分还能超出[6] - 在多项评测中优于GPT-5.2-xhigh的同时,运行成本只有GPT-5.2-xhigh的几分之一[7] 核心能力:全能模型与视觉转代码 - Kimi K2.5是一个全能模型(all in one,Unified model),集成了视觉、文本、对话、agent、思考与非思考等所有能力[12] - 模型主打图像转代码功能,用户只需提供设计稿或界面截图,AI即可生成相应代码,无需编写提示词[12][13] - 模型能理解视频内容,例如将录屏的动画效果自动写成代码进行复现[14] - 结合视觉能力,模型具备一定的“设计审美”,能构建出具有高级审美和动效的网页[15] 智能体集群(Agent Swarm)功能 - Kimi K2.5引入了“Agent Swarm(Agent集群)”功能,在处理复杂任务时,模型能以指挥者身份现场调度并协同最多达100个Agent分身并行工作[21] - 该功能最多支持1500次工具调用,速度比单智能体配置快4.5倍[21] - 智能体集群由Kimi K2.5自动创建和编排,无需任何预定义,经过了并行智能体强化学习训练[22] - 这种并行处理能力能将原本需要数天完成的工作压缩至十几分钟[25] - 在处理真实世界知识工作时,K2.5 Agent可以端到端处理高密度、大规模的办公任务,覆盖文档、电子表格、PDF和幻灯格式,输出能力可达一万字论文或100页文档[29] 实测应用案例 - 多模态推理:模型能正确识别手绘的《生活大爆炸》谢尔顿公寓平面图背景,并能将其重构成3D版本[37][40] - 智能体集群任务:在测试中,为一种虚构的深海智慧生物开发一套包含200个基础词条和3篇创世神话的词汇表,整个过程耗时38分钟,创建了名为“流明语”的新语言[47][51] - 编程助手Kimi Code:基于Kimi K2.5的Kimi Code正式发布,能集成到VSCode、Cursor、Zed等IDE中,支持输入图片和视频[16] - Kimi Code实测:在创建黄金价格监控器的任务中,整个执行过程耗时约4分钟[55][56];在批量处理94个文件的任务中,不到两分钟即完成,上下文占用量仅刚超过10%[62] 行业影响与定位 - 中国的开源模型正在逐渐成为新的标准,Kimi K2.5的发布给全球开源大模型树立了新的标杆[65] - 基于K2.5视觉、智能体能力的发展,AI解锁了更多在真实世界中解决复杂问题的能力[66] - 行业认为Kimi 2.5在智能体能力上已经足以比肩前沿模型,其智能体集群模式在解决复杂任务上的表现亮眼[64]
刚刚,杨植麟亲自开源Kimi K2.5!国产大模型打架的一天
机器之心·2026-01-27 17:45