Workflow
Agent Swarm
icon
搜索文档
Kimi海外收入已超国内,要做“Anthropic + Manus”|智能涌现独家
36氪· 2026-02-02 08:06
公司近期业绩与市场表现 - 公司新一代模型K2.5发布后,全球付费用户在短短几天内实现了4倍增长 [2][3] - 公司的海外收入已超过国内收入,且自2025年11月以来,海外API收入增长4倍,海外和国内付费用户数月度环比增速超过170% [2][7] - 在第三方平台OpenRouter上,K2.5模型排名第三,处理了69.9B tokens,市场份额为13% [4][6] 新一代模型K2.5的技术特点与能力 - K2.5是公司迄今最智能的模型,采用原生多模态架构,能力覆盖视觉理解、代码生成、Agent集群、思考与非思考模式 [7] - 模型在HLE、BrowseComp、SWE-Bench Verified等基准测试中达到开源SOTA,部分指标超越GPT-5.2、Claude Opus 4.5等闭源模型 [7] - K2.5的核心创新在于探索Agent集群,可调度多达100个Agent并行处理1500个步骤,在大规模信息收集场景下将效率提升3到10倍 [9] - 公司选择对标Anthropic,专注基础模型智能上限,并从K2开始将模型权重和工具链全部开源 [10] 公司的技术路线与战略定位 - 公司技术迭代路径清晰:从K1.5专注长文本,到K2提升Agent任务能力,再到K2.5实现AI“团队作战” [8][9] - 公司采用Agent Swarm(集群)路线,以应对高质量数据增长不及算力增长的挑战,并将其视为一种扩展方式 [10] - 公司团队规模约300人,仅为不少大厂的十分之一,目标是“用1%的算力资源,研发出全球领先模型” [10] - 公司在算法和效率上持续创新,例如在全球首个于大规模LLM训练中跑通Muon优化器、自研线性注意力机制Linear [11] 产品布局与商业化策略 - 公司产品布局清晰:API端面向开发者,通过Kimi API开放平台吸引全球开发者;C端明确做生产力工具的定位 [11][12] - 公司专注于大模型层、逻辑层、Agent层,以及深入研究、PPT、数据分析、网站开发等偏生产力、偏复杂任务的链路 [14] - 公司正在将C端产品做得更通用且有品味,例如将内测的Agent产品“OK Computer”更名为“Kimi Agent”,并根据不同主题进行风格化 [12] - 产品注重复杂场景中的可编辑性,如在生成PPT、用Excel生成动画后,用户可自动拆分元素进行编辑 [14]
录屏扒代码、截图改网页,Kimi K2.5把「视觉x代码」玩明白了
36氪· 2026-01-28 08:48
公司产品发布与核心能力 - Moonshot AI推出了名为Kimi K2.5的新一代最强Agentic模型 [1] - 该模型实现了视觉与文本、思考与即时、对话与Agent功能的一体化整合,主打All in one [5] - 模型具备设计审美,可生成带高级动效的网页,并支持通过截图圈选进行可视化编辑 [5] - 模型能够从动效录屏中自动拆解逻辑并生成专业代码 [5] - 公司同步推出了编程工具Kimi Code,可在终端运行,无缝集成VSCode、Cursor等IDE,支持图片/视频输入,并能自动迁移用户现有技能与MCP [5] 产品性能与基准测试 - Kimi K2.5在人类最后的考试HLE、BrowseComp和DeepSearchQA等高难度测试集上取得了SOTA成绩 [6] - 在编程能力测试集SWE-bench Verified上得分高达77,以开源姿态缩小了与顶级闭源模型的差距 [6] - 其视觉理解多项测试刷出新高,在多项评测中表现甚至优于GPT-5.2-xhigh [6] 产品功能模式与应用实测 - Kimi K2.5更新了4种使用模式以适应不同场景:快速模式、思考模式、Agent模式和Agent集群模式 [7][10] - 在“看图写代码”实测中,模型能根据音乐播放器网页截图生成功能完整的代码,还原度超过90% [10][12] - 模型支持“截图改代码”,用户截图圈选界面元素并给出指令(如“把这部分放到左下角”),模型能在2分钟内给出修改后的代码 [13][14] - 即使圈选区域模糊或不完整,模型也能智能补全意图,例如根据“换成莫兰迪色系”的指令,在5分钟内修改配色并实现“伪渐变”效果 [16][18] - 仅凭一句“帮我生成一个文艺风的书籍推荐网页”的提示,模型能生成包含青绿色背景、多种字体、鼠标交互及卡片翻转动效等细节的复杂网页 [18][21] - 在相同提示词下,K2.5 Thinking生成的Switch手柄推箱子游戏在画面比例和像素上优于K2 Thinking,且代码行数更少(738行 vs 818行) [21] 智能体集群技术突破 - Kimi K2.5的核心内功是智能体集群技术,实现了从单一Agent向Agent集群的关键跃进,能即时调度上百个分身并发协作 [25][28] - 该技术让多个具备独立功能的智能体协同工作,各司其职,是对分布式AI协作的具象化表达 [25] - 在处理复杂任务时,模型能自主决策,为智能体分身分配角色、拆解子任务,无需预设规则 [28] - 例如,进行100家公司的市场调研时,模型可组建团队让不同Agent并行工作,将需数周的工作缩短至十几分钟 [30] - 内部评测显示,智能体集群能将实现目标性能所需的最少关键步骤缩减3至4.5倍,实际运行耗时最多可缩短4.5倍 [30] 行业影响与战略定位 - 智能体集群概念被认为是今年Agent领域的核心叙事,英伟达CEO黄仁勋在2025年多次表示AI Agents有望成为下一个机器人级别的万亿级产业,并特别看好集群智能的发展前景 [25] - Kimi K2.5在办公领域的应用(如将文件内容转换为可编辑的PPT)表明其已被微软认定为生产力工具,而此前微软在“Agent+Office”方面的核心合作方是OpenAI的GPT系列 [24][32] - 该模型通过视觉能力和Agent集群,极大地抹平了普通用户与专业交付成果之间的技术鸿沟,使用户无需精通提示词工程,仅通过图像或简单指令即可获得专业成果 [32] - 公司的技术迭代路径清晰:从半年前聚焦参数Scaling的Kimi K2,到通过延长思考链条提升长程任务处理的Kimi K2 Thinking,最终在K2.5上实现了向Agent集群的跃进 [27][28] - 行业趋势显示,AI正从替代人力转向赋予个人“指挥千军万马”的超能力,让用户专注于定义问题和决策,而将执行工作交给AI智能体 [34][35]
Kimi K2.5 上手体验:当 AI 开始学会“人海战术”,我看到了超级个体的终极形态
硬AI· 2026-01-27 17:44
文章核心观点 - 月之暗面发布的Kimi K2.5模型,通过其“智能体集群”和“统一模型”架构,实现了从“与AI对话”到“指挥AI团队”的范式转变,标志着“AI 2.0”时刻的到来 [3][5][8] - Kimi K2.5的核心价值在于扩展了用户的能力边界,使用户能够以极低的成本调度一个多功能的AI团队,从而将个人从“单兵作战”升级为“军团指挥官” [31][33] 产品功能与体验 - **视觉复刻与编程**:Kimi K2.5具备高级视觉理解和生成能力,能够根据视频复刻出带有复杂动效的代码,并通过“视觉微调”功能实现“截图即代码”的交互,极大缩短了从创意到产品的路径 [10][13][15] - **智能体集群调研**:K2.5的“Agent Swarm”功能可瞬间分身出数十个“分析师”并发工作,在测试中,仅用十几分钟就完成了一份涵盖全球前50名生成式AI独角兽的详细调研对比表,展示了其处理复杂、高强度任务的能力 [16][17] - **办公文档处理**:模型能够理解Office套件的“语言”,可将数万字的PDF和杂乱的Excel数据,自动转化为格式完美、图表专业的麦肯锡风格PPT源文件,解决了从原始数据到专业交付物的转化难题 [18] 技术架构与创新 - **统一模型架构**:K2.5是一个“全能模型”,将视觉理解、文本生成、逻辑推理和工具调用能力原生融合在一个模型内,实现了多模态能力的统一,在处理复杂任务时比依赖插件的模型更流畅 [9][19] - **强化学习驱动的智能体集群**:通过重构强化学习基础设施,K2.5训练出了能够自主组织、分工的Agent集群,面对任务可自行决定所需专家类型和数量并立刻执行,其核心叙事从卷参数、长文本转向了“扩展智能体数量” [5][20] - **开源与成本优势**:K2.5模型是开源的,在多项Agent评测中取得开源SOTA(如HLE 50.2分、BrowseComp 74.9分、DeepSearchQA 77.1分),性能在很多维度优于GPT-5级别的闭源模型,而成本仅为后者的几分之一,降低了企业和开发者获取先进AI能力的门槛 [21][23] 生态扩展与行业影响 - **推出Kimi Code编程工具**:公司发布了可直接集成到VSCode、Cursor、Zed等主流编辑器的Kimi Code产品,具备环境一键迁移和多模态编程(如拍照修代码)能力,旨在通过“视觉+代码”的差异化体验争夺开发者工具市场 [25][26][28] - **开启“超级个体”时代**:该产品基于对“工作流”的深刻理解,走出了Agent Swarm的新路径,其意义在于将用户的价值重新定义在问题定义和决策能力上,而非重复性劳动,使AI革命的工具变得触手可及 [30][32][34] - **降低专业技能门槛**:该技术使得用户无需懂代码、排版或爬虫,只要有审美、逻辑或目标,就能借助Kimi K2.5完成网页制作、PPT设计、市场调研等专业任务,极大扩展了普通人的能力范围 [38]