Workflow
分布式AI协作
icon
搜索文档
录屏扒代码、截图改网页,Kimi K2.5把「视觉x代码」玩明白了
36氪· 2026-01-28 08:48
公司产品发布与核心能力 - Moonshot AI推出了名为Kimi K2.5的新一代最强Agentic模型 [1] - 该模型实现了视觉与文本、思考与即时、对话与Agent功能的一体化整合,主打All in one [5] - 模型具备设计审美,可生成带高级动效的网页,并支持通过截图圈选进行可视化编辑 [5] - 模型能够从动效录屏中自动拆解逻辑并生成专业代码 [5] - 公司同步推出了编程工具Kimi Code,可在终端运行,无缝集成VSCode、Cursor等IDE,支持图片/视频输入,并能自动迁移用户现有技能与MCP [5] 产品性能与基准测试 - Kimi K2.5在人类最后的考试HLE、BrowseComp和DeepSearchQA等高难度测试集上取得了SOTA成绩 [6] - 在编程能力测试集SWE-bench Verified上得分高达77,以开源姿态缩小了与顶级闭源模型的差距 [6] - 其视觉理解多项测试刷出新高,在多项评测中表现甚至优于GPT-5.2-xhigh [6] 产品功能模式与应用实测 - Kimi K2.5更新了4种使用模式以适应不同场景:快速模式、思考模式、Agent模式和Agent集群模式 [7][10] - 在“看图写代码”实测中,模型能根据音乐播放器网页截图生成功能完整的代码,还原度超过90% [10][12] - 模型支持“截图改代码”,用户截图圈选界面元素并给出指令(如“把这部分放到左下角”),模型能在2分钟内给出修改后的代码 [13][14] - 即使圈选区域模糊或不完整,模型也能智能补全意图,例如根据“换成莫兰迪色系”的指令,在5分钟内修改配色并实现“伪渐变”效果 [16][18] - 仅凭一句“帮我生成一个文艺风的书籍推荐网页”的提示,模型能生成包含青绿色背景、多种字体、鼠标交互及卡片翻转动效等细节的复杂网页 [18][21] - 在相同提示词下,K2.5 Thinking生成的Switch手柄推箱子游戏在画面比例和像素上优于K2 Thinking,且代码行数更少(738行 vs 818行) [21] 智能体集群技术突破 - Kimi K2.5的核心内功是智能体集群技术,实现了从单一Agent向Agent集群的关键跃进,能即时调度上百个分身并发协作 [25][28] - 该技术让多个具备独立功能的智能体协同工作,各司其职,是对分布式AI协作的具象化表达 [25] - 在处理复杂任务时,模型能自主决策,为智能体分身分配角色、拆解子任务,无需预设规则 [28] - 例如,进行100家公司的市场调研时,模型可组建团队让不同Agent并行工作,将需数周的工作缩短至十几分钟 [30] - 内部评测显示,智能体集群能将实现目标性能所需的最少关键步骤缩减3至4.5倍,实际运行耗时最多可缩短4.5倍 [30] 行业影响与战略定位 - 智能体集群概念被认为是今年Agent领域的核心叙事,英伟达CEO黄仁勋在2025年多次表示AI Agents有望成为下一个机器人级别的万亿级产业,并特别看好集群智能的发展前景 [25] - Kimi K2.5在办公领域的应用(如将文件内容转换为可编辑的PPT)表明其已被微软认定为生产力工具,而此前微软在“Agent+Office”方面的核心合作方是OpenAI的GPT系列 [24][32] - 该模型通过视觉能力和Agent集群,极大地抹平了普通用户与专业交付成果之间的技术鸿沟,使用户无需精通提示词工程,仅通过图像或简单指令即可获得专业成果 [32] - 公司的技术迭代路径清晰:从半年前聚焦参数Scaling的Kimi K2,到通过延长思考链条提升长程任务处理的Kimi K2 Thinking,最终在K2.5上实现了向Agent集群的跃进 [27][28] - 行业趋势显示,AI正从替代人力转向赋予个人“指挥千军万马”的超能力,让用户专注于定义问题和决策,而将执行工作交给AI智能体 [34][35]
录屏扒代码、截图改网页!Kimi K2.5把「视觉x代码」玩明白了
量子位· 2026-01-28 08:02
文章核心观点 - Moonshot AI推出的最新Agentic模型Kimi K2.5,在视觉理解、代码生成与智能体集群协作方面实现重大突破,显著提升了AI处理复杂任务的能力与效率,并致力于通过直观的交互方式降低专业工具的使用门槛 [10][17][64][81] 模型核心能力与升级 - **一体化整合与设计审美**:模型实现了视觉与文本、思考与即时、对话与Agent功能的一体化整合,具备设计审美,可生成带高级动效的网页 [17] - **强大的视觉与代码交互能力**:支持通过截图圈选进行可视化编辑,上传动效录屏可自动拆解逻辑并生成专业代码 [17] - **推出编程工具Kimi Code**:该工具可在终端运行,无缝集成VSCode、Cursor等IDE,支持图片/视频输入,并能自动迁移用户现有技能与MCP [17] - **四种使用模式适应不同场景**:包括快速模式、思考模式、Agent模式以及最强大的Agent集群模式,后者可调动多个智能体分身并行处理超级任务 [21][23] 性能表现与基准测试 - **多项测试取得SOTA成绩**:K2.5在HLE、BrowseComp和DeepSearchQA等高难度测试集上取得了SOTA成绩 [19] - **编程能力显著提升**:在SWE-bench Verified上得分高达77,以开源姿态缩小了与顶级闭源模型的差距 [19] - **视觉理解刷出新高**:在多项评测中,K2.5的表现甚至优于GPT-5.2-xhigh [19] 视觉与代码能力实测 - **看图写代码能力**:上传音乐播放器网页截图后,模型能生成还原度超过90%的完整代码,包括按钮hover动效和进度条滑动效果 [28][30][31] - **截图改代码能力**:通过截图圈选指定区域并给出指令,模型能在2分钟内精准修改代码并调整布局,过程直观如绘图软件 [35][37][38] - **智能意图理解**:即使圈选区域模糊或不完整,模型也能智能补全用户意图,避免常见AI误读问题 [40] - **从零生成创意内容**:仅凭“生成一个文艺风的书籍推荐网页”一句话指令,模型能生成包含青绿色背景、多种字体、交互动效及多个内容模块的详细网页 [46][49][51][54] - **代码质量与效率提升**:在相同任务下,K2.5 Thinking生成的Switch手柄游戏代码(738行)在画面比例和像素上优于K2 Thinking(818行),且代码更精简 [54] Agent集群(Agent Swarm)技术 - **实现从单Agent到集群的跃进**:K2.5能即时调度上百个具备独立功能的智能体分身并发协作,各司其职又互相配合 [64][65][72] - **显著提升复杂任务效率**:例如进行100家公司市场调研时,可组建团队让不同Agent并行负责数据收集、分析等工作,将需数周的工作缩短至十几分钟 [76][77][78] - **内部评测显示性能大幅进步**:相较于单智能体模式,智能体集群能将实现目标性能所需的最少关键步骤缩减3至4.5倍,实际运行耗时最多可缩短4.5倍 [79] 行业影响与定位 - **瞄准万亿级产业赛道**:行业看好AI Agents成为下一个机器人级别的万亿级产业,并特别关注集群智能的发展前景 [66] - **被微软认定为生产力工具**:在办公领域的升级使其成为微软认定的生产力工具,此前微软在「Agent+Office」方面的核心合作方是OpenAI的GPT系列 [82] - **降低技术使用门槛**:通过视觉能力和Agent集群,极大地抹平了普通用户与专业交付成果之间的技术鸿沟,用户可专注于定义问题和决策 [81][85]