Workflow
Kimi Code
icon
搜索文档
太突然!中国知名AI公司,拿下7亿美元融资,估值超百亿美元,阿里、腾讯都投了!
新浪财经· 2026-02-17 15:34
融资与估值动态 - 月之暗面(Kimi)在完成5亿美元C轮融资仅一个多月后,新一轮超7亿美元的融资即将完成交割,由阿里、五源、九安等老股东联合领投,腾讯也参与投资 [1][6] - 公司最新估值翻倍并突破100亿美元大关,新一轮100-120亿美元估值的融资也已开启 [1][6] - 连续两轮融资总额超12亿美元,是近一年来大模型行业的最高融资金额 [1][6] - 截至2025年12月31日,公司完成5亿美元C轮融资且大幅超募,当前现金持有量超过100亿元 [1][6] 公司战略与资本规划 - 公司明确表示不急于上市,认为可以从一级市场募集比二级市场更大量的资金,其B/C轮融资金额已超过绝大部分IPO募资及上市公司的定向增发 [3][8][9] - C轮融资资金将用于“更加激进地扩增显卡”,加速K3模型的训练和研发,部分资金也将用于2026年的激励计划和期权回购计划 [4][9] 技术进展与产品迭代 - 2025年公司技术持续演进,K2和K2 Thinking的发布标志着在AGI道路上走出重要一步,技术标签包括“中国首个万亿参数基座模型”、“第一个开源的agentic model” [3][9] - 自5月起,Kimi高频推出包括Researcher、OK Computer、PPT、Kimi Code在内的多项智能体(Agent)功能 [3][9] - 面向2026年的三项战略:K3模型通过技术改进和规模化,提升等效FLOPs至少一个数量级,在预训练水平上追平世界前沿模型;垂直整合模型训练和智能体产品,打造独特能力;产品和商业化聚焦智能体,追求智能上限和生产力价值,实现营收规模数量级增长 [5][10] 商业化与用户增长 - 2025年9月至11月,Kimi海内外付费用户数平均月环比增长超过170% [3][9] - K2 Thinking的发布显著带动了API收入,同期海外API收入增长达4倍 [3][9] - 公司商业化聚焦智能体,不以绝对用户数量为目标,旨在创造更大的生产力价值 [5][10] 行业竞争与人才市场 - AI人才争夺战激烈,公司计划在2026年将员工平均激励提升至2025年的200%,并大幅上调期权回购额度,将在2026年春节前发放K2 Thinking等产品的奖励方案 [4][10] - 据脉脉《2025年AI人才流动报告》,2025年前7个月AI岗位需求同比上涨10倍,算法人才持续紧缺,字节跳动等公司在12月进一步提升了薪酬待遇以加强竞争力 [5][10] 资金用途与未来挑战 - 公司百亿元的现金储备被视为下一场更昂贵竞赛的燃料,主要用于算力扩张和模型研发 [4][9] - 持续且巨额的算力投入是大模型企业无法逃脱的循环,公司仍需证明能建立起健康、可持续且利润可观的商业模式 [5][11]
月之暗面Kimi发布并开源K2.5模型
人民网· 2026-02-02 09:21
公司产品发布 - 月之暗面公司发布了新一代开源模型Kimi K2.5,该模型在HLE、BrowseComp、DeepSearchQA等多项agent评测中均取得全球开源模型的最佳成绩,是公司目前最智能的模型 [1] - Kimi K2.5基于原生多模态架构设计,支持视觉与文本输入,将视觉理解与推理、编程、Agent等能力全部集成到一个模型中 [1] - 公司创始人表示,团队重构了强化学习的基建,并专门优化了训练算法,以确保模型能达到极致的效率和性能 [1] 产品技术特性与创新 - 在Kimi K2.5更新中,研发团队推出“Agent集群”功能,模型可自主创建“分身”智能体,按需组成不同角色团队并行工作 [1] - 在大规模搜索等场景下,Agent集群相比单Agent执行,可以大幅提升复杂任务处理效率 [1] - 公司同时推出新的编程产品Kimi Code,该产品不仅能够直接在终端运行,还能与VSCode、Cursor、Zed等主流编辑器集成 [1] - 借助K2.5的多模态优势,开发者可以直接输入图片和视频进行编程辅助,旨在简化编程流程,降低技术门槛 [1]
AI周观察:腾讯元宝开启AI入口战,12月国内消费电子表现不佳
国金证券· 2026-02-01 20:14
报告行业投资评级 * 报告未明确给出行业投资评级 [1][4][5][6][7][10][11][12][14][15][16][18][19][22][23] 报告的核心观点 * **AI应用与模型持续迭代**:海外AI应用活跃度走高,国内应用通过营销活动保持热度;多家公司发布重要模型与平台升级,聚焦编程、多模态、文档识别及科研协作能力 [2][7][10][11] * **消费电子市场表现分化**:2025年12月中国智能手机市场销量同比显著下滑,但华为凭借折叠屏等明星机型占据领先份额;PC市场中,台式机销量回暖,笔记本电脑销量则出现同比下滑 [2][12][19] 海外市场行情回顾 * 截至1月30日当周,海外AI及科技股表现分化,Meta(周涨**8.76%**)、苹果(周涨**4.61%**)、博通(周涨**3.52%**)等领涨;而微软(周跌**7.65%**)、超威半导体(周跌**8.84%**)、Palantir(周跌**13.57%**)等跌幅居前 [6] AI行业动态 * **应用活跃度**:海外聊天助手类应用中,Gemini和Claude的活跃度持续上升,ChatGPT保持稳定;国内应用表现平稳,腾讯AI应用“元宝”上线总规模约**10亿元**的春节现金红包活动 [2][10] * **产品与模型发布**: * 月之暗面发布由K2.5多模态模型驱动的编程工具Kimi Code及K2.5模型,新增“Thinking”思考模式,提升3D模型生成与逻辑推理能力 [2][7][11] * DeepSeek推出文档识别模型DeepSeek-OCR2,采用“视觉因果流”技术,在OmniDocBench v1.5基准测试中得分达**91.09%**,显著提升复杂文档识别精度 [2][11] * OpenAI推出由GPT-5.2驱动的科研协作平台Prism,旨在降低科研工作成本 [2][11] * 开源AI助手项目OpenClaw完成更名,GitHub星标数突破**10万**,坚持本地运行与隐私优先 [2][11] 消费电子动态 * **智能手机市场**:2025年12月,中国智能手机销量约为**2100万台**,同比下滑约**20%** [2][12] * **品牌份额**:当月市场份额前五名为华为(约**20%**)、OPPO(约**17%**)、荣耀(约**14%**)、vivo(约**14%**)、苹果(约**13%**) [2][12] * **热门机型**:销量排名前三的机型均为华为折叠屏手机,依次为Mate X6、Mate X7 classic、Mate X7 [2][12] * **PC市场**:2025年12月,中国台式机销量约为**192万台**,同比上升约**9%**;笔记本电脑销量约为**215万台**,同比下降约**9%** [19]
梁文锋和杨植麟,第四次撞车
36氪· 2026-01-29 16:24
文章核心观点 - 2025年以来,DeepSeek与月之暗面(Kimi)在技术路线上已发生四次高度同步的“撞车”式发布,这并非偶然内卷,而是两家公司创始人对大模型产业痛点和未来方向有着相似的判断,并在关键技术路线上进行“和而不同”的创新 [1] - 最近一次“撞车”发生在视觉理解领域,双方均发布了新一代模型(DeepSeek OCR-2与月之暗面K2.5),旨在解决大模型从“语言交互”迈向“全场景交互”的瓶颈,以在多模态商业化竞争中占据主动 [1][4][5] 四次技术路线“撞车”事件 - **第一次(2025年1月20日)**:DeepSeek-R1与Kimi 1.5先后发布,均采用了“基于结果奖励的强化学习”路线 [2] - **第二次(2025年2月18日)**:双方同日发表关于注意力架构的论文,旨在解决Transformer长上下文处理效率低、算力消耗高的痛点。DeepSeek提出NSA(原生稀疏注意力)架构,侧重硬件优化;月之暗面提出MoBA(混合块注意力)架构,在Transformer框架内进行灵活创新 [2] - **第三次(2025年4月)**:DeepSeek发布数学推理模型DeepSeek-Prover-V2,月之暗面也上线了数学推理专项模型,两者核心都采用了“自验证”方式,以提升定理证明的稳定性与准确性 [3] - **第四次(2025年1月27日)**:月之暗面发布并开源新模型Kimi K2.5,DeepSeek上线新一代模型OCR-2,两者均将视觉理解能力作为重大突破点 [1] 视觉理解成为共同攻坚方向的原因 - 根据2025年7月SuperCLUE多模态测评报告,视觉语言模型普遍面临三大痛点:专业领域知识(如医疗影像)欠缺、复杂场景(如自动驾驶)适应不足、多模态融合深度不够(图文不一致时判断准确率不足65%)[5] - 视觉理解是大模型从“语言交互”走向“全场景交互”的必经之路,已成为制约模型商业化落地的关键瓶颈 [5] - 在视觉理解层面,海外模型(Google Gemini、OpenAI GPT 5.2和Claude)已处于领先阶段,国内大模型尚处于追赶和“补课”阶段 [7] 月之暗面K2.5的核心创新与特点 - **视觉理解与编程结合**:K2.5极大增强了视觉理解能力,可分析用户上传的图片、视频,并据此编程或解答问题,降低了开发门槛,让非程序员靠截图录屏也能做出原型 [1][10] - **技术实现**:团队采用约15万亿个Token进行大规模视觉文本联合预训练,并构建了Visual Agentic Intelligence(视觉智能体智能)系统,从视觉理解编码入手分解Agent任务 [7] - **Agent集群(Agent Swarm)功能**:K2.5从单一Agent进化到Agent集群,主Agent能动态生出上百个“子Agent”并行工作,任务执行效率相较于单智能体模式最高提升达4.5倍 [12] - **工程化优势**:K2.5的Agent集群由模型全自动创建与协调,用户无需预定义工作流,实现了动态分工。子Agent拥有各自的工作记忆,只在必要时将结果返回给主调度器,避免了上下文信息污染 [13][14] - **配套工具**:伴随K2.5推出了Kimi Code,可在终端直接运行,也能集成到VSCode、Cursor等主流编辑器中,并能自动发现用户编程过程,迁移现有技能包 [10] DeepSeek OCR-2的核心创新与特点 - **源头技术创新**:DeepSeek更侧重在视觉技术源头进行创新,提出了“视觉因果流”机制 [1] - **技术原理**:OCR-2替换了传统的CLIP编码器,引入全新的视觉编码器DeepEncoder V2。该架构打破了固定顺序(从左到右、从上到下)扫描图像的限制,能像人类一样根据图像内容的语义和逻辑动态调整阅读顺序 [11] 双方技术路径的差异 - **月之暗面K2.5**:基于多模态模型提升工程化性能,更靠近商业落地侧,侧重于将视觉理解与编程、Agent能力紧密结合 [11] - **DeepSeek OCR-2**:更侧重追溯到技术源头进行创新,在视觉编码机制上做出根本性改变 [11] 行业现状与挑战 - **数据挑战**:训练高质量视觉语言模型面临多模态数据匮乏的困难,需要高质量的数据而非普通人日常拍摄的照片,维基百科数据仅属中等质量 [8] - **“技术品味”追求**:月之暗面强调模型需要具备“品味”和审美认知,例如希望模型在UI界面、美学设计上更“浪漫”,这需要匹配相应的数据 [8][10]
月之暗面三位联创深夜回应一切,3小时答全球网友23问,杨植麟剧透Kimi K3提升巨大
36氪· 2026-01-29 08:17
公司概况与研发文化 - 公司核心团队在Reddit平台进行了长达3小时的AMA活动,回答了超过40个问题 [1][3] - 公司拥有“把事情真正做成并落地”的共同价值观,而非追求表面光鲜 [4][9] - 公司鼓励全员参与技术讨论,每天对实验方向进行深入探讨,以决定继续、调整或放弃 [9] - 公司在押注技术基本面上有良好记录,例如MoBA项目几乎从公司成立之初开始,Kimi Linear项目经历了近一年的探索 [9] - 公司创始人认为训练模型的过程是不断接近“智能如何被创造”的真相 [9] 算力储备与行业竞争 - 公司CEO杨植麟承认,在GPU数量上与其他企业的差距并未缩小 [3][8] - 算法负责人周昕宇认为“创新往往诞生于约束之中”,暗示在有限算力下寻求突破 [3][8] - 对于实现AGI所需的算力规模,公司持开放态度,认为仍需拭目以待 [3][8] Kimi K2.5 模型技术细节 - Kimi K2.5是公司目前最强大的模型,在视觉、编程、智能体及通用任务上表现良好 [4] - 模型通过“智能体蜂群”技术,可调度多达100个子智能体,任务执行效率最高提升450% [4] - 针对模型有时自称为“Claude”的现象,CEO解释主要源于预训练阶段对最新编程数据进行了上采样,这些数据与“Claude”这个词元关联性强,并非模型蒸馏自Claude的证据 [3][16] - 公司称K2.5在多项基准测试中优于Claude,例如HLE、BrowseComp、MMMU Pro和MathVision [3][17] - 公司通过提高数据质量(更多验证知识)和调整奖励机制(惩罚幻觉)来降低模型幻觉问题 [17] - Kimi K2.5采用了较高的参数比例(约470:1),使用了15万亿个token进行训练,公司认为适度“过度训练”是为获得更优整体权衡而支付的“成本”,而非浪费 [17][18] - “智能体蜂群”技术允许子智能体拥有独立工作记忆,只在必要时将结果返回主调度器,从而避免了上下文污染,并在新维度上扩展了整体上下文长度 [18] - 公司认为在参数规模足够的情况下,编程能力与创意写作等“软性”能力不存在根本冲突,但保持一致的“写作品味”是一项挑战,公司通过内部基准评测来调整奖励模型 [19] - 公司承认模型版本迭代会导致“个性”变化,这是一个棘手且主观的评估问题,正在努力解决以满足用户个性化需求 [20] - 公司开发了自有编程工具Kimi Code,以更好地匹配其模型框架,并拥有视频输入等独有功能,认为video2code代表前端开发的未来 [11][12] 技术研发方法与挑战 - 训练视觉语言模型的主要挑战在于同时提升文本和视觉性能,公司发现方法得当时两者可相互促进,例如视觉任务上的强化学习训练可提升文本知识基准成绩 [10] - 强化学习基础设施是巨大挑战,公司力求在保持灵活性的同时实现高效率,并复用繁重计算工作以实现规模化扩展 [12] - 智能体蜂群的部署逻辑复杂,但公司系统具有高灵活性,允许集成不同框架和子智能体设置到训练过程中 [13] - 公司的Scaling实验从非常小的规模开始,有时小到可在单个CPU上训练,核心目标是预测系统的可扩展性 [13] - 公司曾急于将Kimi Linear移植到Kimi K2中,但遭遇规模化失败,经过数月调试才使其达到现有水平 [13] - 公司认为大多数小规模有效的方案无法突破规模化瓶颈,能成功推广的方案通常简单有效且有数学依据,研究的重点在于应对失败 [13] - 对于DeepSeek的Engram架构,公司认为对嵌入进行Scaling是有趣方向,但在通过Scaling阶梯测试前尚无可靠数据 [8] - 关于强化学习算力预算,CEO表示其计算量将持续增长,且未来可能出现更多新的目标函数对模型进行强化训练,尤其是在智能体领域 [15] - 公司认为当前模型能力的瓶颈往往不在于路线复杂度,而在于任务本身是否可验证,智能的上限更取决于能否发明新的学习算法 [15][16] - 公司使用小型视觉编码器(如400M),因为其有利于Scaling,甚至考虑过设为0的可能性 [26] - 目前公司没有足够资源处理音频输入,可能将重点放在训练更好的智能体上 [26] 未来规划与Kimi K3展望 - 对于下一代模型Kimi K3,CEO未透露太多细节,但提到会在Kimi Linear基础上加入更多架构优化 [3] - CEO相信Kimi K3就算没有比K2.5强10倍,也肯定会强很多 [3][23] - Kimi K3将尝试新的架构和功能 [21] - 线性架构是一个非常不错的选择,公司做了大量研究,Kimi Linear是与之并行的一项专门研究项目 [22][24] - 公司正大力投资线性注意力机制,将其作为未来模型的关键方向 [24] - 公司相信持续学习能够提升模型的自主性并使其更长时间高效工作,正在积极探索该方向 [24] - 公司认为模型的核心在于“品味”,因为智能是非同质化的,并指出K2.5相比其他模型更少迎合用户,这可能是一种好的性格特征 [25] - “智能体蜂群”功能目前处于测试阶段,待其更加稳定后,公司将向开发者提供框架 [25]
录屏扒代码、截图改网页,Kimi K2.5把「视觉x代码」玩明白了
36氪· 2026-01-28 08:48
公司产品发布与核心能力 - Moonshot AI推出了名为Kimi K2.5的新一代最强Agentic模型 [1] - 该模型实现了视觉与文本、思考与即时、对话与Agent功能的一体化整合,主打All in one [5] - 模型具备设计审美,可生成带高级动效的网页,并支持通过截图圈选进行可视化编辑 [5] - 模型能够从动效录屏中自动拆解逻辑并生成专业代码 [5] - 公司同步推出了编程工具Kimi Code,可在终端运行,无缝集成VSCode、Cursor等IDE,支持图片/视频输入,并能自动迁移用户现有技能与MCP [5] 产品性能与基准测试 - Kimi K2.5在人类最后的考试HLE、BrowseComp和DeepSearchQA等高难度测试集上取得了SOTA成绩 [6] - 在编程能力测试集SWE-bench Verified上得分高达77,以开源姿态缩小了与顶级闭源模型的差距 [6] - 其视觉理解多项测试刷出新高,在多项评测中表现甚至优于GPT-5.2-xhigh [6] 产品功能模式与应用实测 - Kimi K2.5更新了4种使用模式以适应不同场景:快速模式、思考模式、Agent模式和Agent集群模式 [7][10] - 在“看图写代码”实测中,模型能根据音乐播放器网页截图生成功能完整的代码,还原度超过90% [10][12] - 模型支持“截图改代码”,用户截图圈选界面元素并给出指令(如“把这部分放到左下角”),模型能在2分钟内给出修改后的代码 [13][14] - 即使圈选区域模糊或不完整,模型也能智能补全意图,例如根据“换成莫兰迪色系”的指令,在5分钟内修改配色并实现“伪渐变”效果 [16][18] - 仅凭一句“帮我生成一个文艺风的书籍推荐网页”的提示,模型能生成包含青绿色背景、多种字体、鼠标交互及卡片翻转动效等细节的复杂网页 [18][21] - 在相同提示词下,K2.5 Thinking生成的Switch手柄推箱子游戏在画面比例和像素上优于K2 Thinking,且代码行数更少(738行 vs 818行) [21] 智能体集群技术突破 - Kimi K2.5的核心内功是智能体集群技术,实现了从单一Agent向Agent集群的关键跃进,能即时调度上百个分身并发协作 [25][28] - 该技术让多个具备独立功能的智能体协同工作,各司其职,是对分布式AI协作的具象化表达 [25] - 在处理复杂任务时,模型能自主决策,为智能体分身分配角色、拆解子任务,无需预设规则 [28] - 例如,进行100家公司的市场调研时,模型可组建团队让不同Agent并行工作,将需数周的工作缩短至十几分钟 [30] - 内部评测显示,智能体集群能将实现目标性能所需的最少关键步骤缩减3至4.5倍,实际运行耗时最多可缩短4.5倍 [30] 行业影响与战略定位 - 智能体集群概念被认为是今年Agent领域的核心叙事,英伟达CEO黄仁勋在2025年多次表示AI Agents有望成为下一个机器人级别的万亿级产业,并特别看好集群智能的发展前景 [25] - Kimi K2.5在办公领域的应用(如将文件内容转换为可编辑的PPT)表明其已被微软认定为生产力工具,而此前微软在“Agent+Office”方面的核心合作方是OpenAI的GPT系列 [24][32] - 该模型通过视觉能力和Agent集群,极大地抹平了普通用户与专业交付成果之间的技术鸿沟,使用户无需精通提示词工程,仅通过图像或简单指令即可获得专业成果 [32] - 公司的技术迭代路径清晰:从半年前聚焦参数Scaling的Kimi K2,到通过延长思考链条提升长程任务处理的Kimi K2 Thinking,最终在K2.5上实现了向Agent集群的跃进 [27][28] - 行业趋势显示,AI正从替代人力转向赋予个人“指挥千军万马”的超能力,让用户专注于定义问题和决策,而将执行工作交给AI智能体 [34][35]
录屏扒代码、截图改网页!Kimi K2.5把「视觉x代码」玩明白了
量子位· 2026-01-28 08:02
文章核心观点 - Moonshot AI推出的最新Agentic模型Kimi K2.5,在视觉理解、代码生成与智能体集群协作方面实现重大突破,显著提升了AI处理复杂任务的能力与效率,并致力于通过直观的交互方式降低专业工具的使用门槛 [10][17][64][81] 模型核心能力与升级 - **一体化整合与设计审美**:模型实现了视觉与文本、思考与即时、对话与Agent功能的一体化整合,具备设计审美,可生成带高级动效的网页 [17] - **强大的视觉与代码交互能力**:支持通过截图圈选进行可视化编辑,上传动效录屏可自动拆解逻辑并生成专业代码 [17] - **推出编程工具Kimi Code**:该工具可在终端运行,无缝集成VSCode、Cursor等IDE,支持图片/视频输入,并能自动迁移用户现有技能与MCP [17] - **四种使用模式适应不同场景**:包括快速模式、思考模式、Agent模式以及最强大的Agent集群模式,后者可调动多个智能体分身并行处理超级任务 [21][23] 性能表现与基准测试 - **多项测试取得SOTA成绩**:K2.5在HLE、BrowseComp和DeepSearchQA等高难度测试集上取得了SOTA成绩 [19] - **编程能力显著提升**:在SWE-bench Verified上得分高达77,以开源姿态缩小了与顶级闭源模型的差距 [19] - **视觉理解刷出新高**:在多项评测中,K2.5的表现甚至优于GPT-5.2-xhigh [19] 视觉与代码能力实测 - **看图写代码能力**:上传音乐播放器网页截图后,模型能生成还原度超过90%的完整代码,包括按钮hover动效和进度条滑动效果 [28][30][31] - **截图改代码能力**:通过截图圈选指定区域并给出指令,模型能在2分钟内精准修改代码并调整布局,过程直观如绘图软件 [35][37][38] - **智能意图理解**:即使圈选区域模糊或不完整,模型也能智能补全用户意图,避免常见AI误读问题 [40] - **从零生成创意内容**:仅凭“生成一个文艺风的书籍推荐网页”一句话指令,模型能生成包含青绿色背景、多种字体、交互动效及多个内容模块的详细网页 [46][49][51][54] - **代码质量与效率提升**:在相同任务下,K2.5 Thinking生成的Switch手柄游戏代码(738行)在画面比例和像素上优于K2 Thinking(818行),且代码更精简 [54] Agent集群(Agent Swarm)技术 - **实现从单Agent到集群的跃进**:K2.5能即时调度上百个具备独立功能的智能体分身并发协作,各司其职又互相配合 [64][65][72] - **显著提升复杂任务效率**:例如进行100家公司市场调研时,可组建团队让不同Agent并行负责数据收集、分析等工作,将需数周的工作缩短至十几分钟 [76][77][78] - **内部评测显示性能大幅进步**:相较于单智能体模式,智能体集群能将实现目标性能所需的最少关键步骤缩减3至4.5倍,实际运行耗时最多可缩短4.5倍 [79] 行业影响与定位 - **瞄准万亿级产业赛道**:行业看好AI Agents成为下一个机器人级别的万亿级产业,并特别关注集群智能的发展前景 [66] - **被微软认定为生产力工具**:在办公领域的升级使其成为微软认定的生产力工具,此前微软在「Agent+Office」方面的核心合作方是OpenAI的GPT系列 [82] - **降低技术使用门槛**:通过视觉能力和Agent集群,极大地抹平了普通用户与专业交付成果之间的技术鸿沟,用户可专注于定义问题和决策 [81][85]
从单打到团战,杨植麟又交新作业
36氪· 2026-01-28 07:51
中国AI模型竞争与产品发布动态 - 中国三大开源模型公司DeepSeek、千问和Kimi在24小时内相继更新模型,占据海外社交平台X热点前三[1] - 此次Kimi K2.5的发布是继一年前与DeepSeek同日发布后的又一次正面竞争,海外热度显示Kimi此次可能扳回一城[3] - 行业竞争已从单纯的参数竞赛,转变为比拼多模态架构创新与智能体交付落地[6] Kimi K2.5模型的核心技术升级 - 新增图片理解能力,并将视觉理解、文本推理、深度思考与即时反应等能力原生整合进一个统一的“All in One”架构[3][6] - 在评估实际编程能力的SWE-bench Verified基准测试中获得76.8分,拉近了与顶尖闭源模型的距离[6] - 引入“Coding美学”,突破将图片和视频转化成代码的能力,降低非专业人士的编程门槛[8] - 推出Kimi Code编程产品,支持直接导入图片和视频进行编程辅助,并自动适配开发者工作习惯[8] - 产品设计具有高级审美和细腻动效,接近专业设计师水准[10] Agent集群功能的战略意义 - K2.5引入“Agent集群”功能,可并行调度数十个甚至上百个AI分身处理超复杂任务[5][12] - 该功能旨在将传统需要人类专家团队数日完成的天级别工作周期,压缩到十几分钟[13] - 为实现此功能,公司重构了强化学习基建并优化训练算法,以解决规模化训练的技术挑战[13] - 该功能目前处于Beta测试阶段,其目标是改变研究、咨询、内容生产等行业的效率基准[13] 商业化与落地战略转向 - 公司战略重心转向可交付成果,试图将AI从“对话”带入可靠实干阶段[5] - 通过“精通Office”能力切入亿级职场市场,旨在嵌入全球数十亿知识工作者的核心日常流程[16][17] - 模型学习Word、Excel、PPT等专业软件技能,用户仅需用自然语言提出需求即可生成接近专业水平的交付物[17][18] - 此举旨在显著缩小从原始想法到最终“专业交付物”的差距,切入企业级服务与个人高级订阅市场[20] - 公司以开源模式在海外闭源市场展开竞争,旨在抢占智能体应用范式的标准定义与开发者心智先机[14][16] 行业发展趋势与评估标准演变 - 行业对大模型初创公司的期待从模型能力演变为技术与商业化两手抓,要求具备自造血能力[14] - 模型成功的最终标尺不再是榜单分数,而是在真实工作流中能为使用者节省多少时间成本、创造多少切实价值[21] - 行业发展方向是让人类从重复繁琐工作中解放,专注于创意或更高层级的决策[21] - 聚焦具体任务执行效率的提升方向,或将影响后续AI产品的开发重点和评估标准[21]
刚刚,杨植麟亲自开源Kimi K2.5!国产大模型打架的一天
机器之心· 2026-01-27 17:45
模型发布与核心参数 - 月之暗面公司发布了Kimi K2.5模型,这是一个拥有1万亿参数(1 trillion)的MoE基础模型,并且依然保持开源[4] - 新模型相较前代,视觉理解能力大幅增强,可以处理视频,同时编程能力也有明显提升[4] 模型性能与基准测试 - 在极具挑战性的agent评测上取得当前最佳表现(SOTA),例如在HLE(人类最后考试)上拿到50.2%,在BrowseComp上拿到74.9%[4] - 编程能力突出,在SWE-bench Verified上拿到76.8%,缩小了与顶尖闭源模型之间的差距[4] - 在多项视觉理解评测上实现了当前开源最佳效果[4] - 在核心基准测试上,Kimi K2.5的成绩与Opus 4.5、GPT 5.2 XHigh和Gemini 3.0 Pro等当前最强大闭源模型基本相当,部分评分还能超出[6] - 在多项评测中优于GPT-5.2-xhigh的同时,运行成本只有GPT-5.2-xhigh的几分之一[7] 核心能力:全能模型与视觉转代码 - Kimi K2.5是一个全能模型(all in one,Unified model),集成了视觉、文本、对话、agent、思考与非思考等所有能力[12] - 模型主打图像转代码功能,用户只需提供设计稿或界面截图,AI即可生成相应代码,无需编写提示词[12][13] - 模型能理解视频内容,例如将录屏的动画效果自动写成代码进行复现[14] - 结合视觉能力,模型具备一定的“设计审美”,能构建出具有高级审美和动效的网页[15] 智能体集群(Agent Swarm)功能 - Kimi K2.5引入了“Agent Swarm(Agent集群)”功能,在处理复杂任务时,模型能以指挥者身份现场调度并协同最多达100个Agent分身并行工作[21] - 该功能最多支持1500次工具调用,速度比单智能体配置快4.5倍[21] - 智能体集群由Kimi K2.5自动创建和编排,无需任何预定义,经过了并行智能体强化学习训练[22] - 这种并行处理能力能将原本需要数天完成的工作压缩至十几分钟[25] - 在处理真实世界知识工作时,K2.5 Agent可以端到端处理高密度、大规模的办公任务,覆盖文档、电子表格、PDF和幻灯格式,输出能力可达一万字论文或100页文档[29] 实测应用案例 - **多模态推理**:模型能正确识别手绘的《生活大爆炸》谢尔顿公寓平面图背景,并能将其重构成3D版本[37][40] - **智能体集群任务**:在测试中,为一种虚构的深海智慧生物开发一套包含200个基础词条和3篇创世神话的词汇表,整个过程耗时38分钟,创建了名为“流明语”的新语言[47][51] - **编程助手Kimi Code**:基于Kimi K2.5的Kimi Code正式发布,能集成到VSCode、Cursor、Zed等IDE中,支持输入图片和视频[16] - **Kimi Code实测**:在创建黄金价格监控器的任务中,整个执行过程耗时约4分钟[55][56];在批量处理94个文件的任务中,不到两分钟即完成,上下文占用量仅刚超过10%[62] 行业影响与定位 - 中国的开源模型正在逐渐成为新的标准,Kimi K2.5的发布给全球开源大模型树立了新的标杆[65] - 基于K2.5视觉、智能体能力的发展,AI解锁了更多在真实世界中解决复杂问题的能力[66] - 行业认为Kimi 2.5在智能体能力上已经足以比肩前沿模型,其智能体集群模式在解决复杂任务上的表现亮眼[64]
Kimi K2.5 上手体验:当 AI 开始学会“人海战术”,我看到了超级个体的终极形态
硬AI· 2026-01-27 17:44
文章核心观点 - 月之暗面发布的Kimi K2.5模型,通过其“智能体集群”和“统一模型”架构,实现了从“与AI对话”到“指挥AI团队”的范式转变,标志着“AI 2.0”时刻的到来 [3][5][8] - Kimi K2.5的核心价值在于扩展了用户的能力边界,使用户能够以极低的成本调度一个多功能的AI团队,从而将个人从“单兵作战”升级为“军团指挥官” [31][33] 产品功能与体验 - **视觉复刻与编程**:Kimi K2.5具备高级视觉理解和生成能力,能够根据视频复刻出带有复杂动效的代码,并通过“视觉微调”功能实现“截图即代码”的交互,极大缩短了从创意到产品的路径 [10][13][15] - **智能体集群调研**:K2.5的“Agent Swarm”功能可瞬间分身出数十个“分析师”并发工作,在测试中,仅用十几分钟就完成了一份涵盖全球前50名生成式AI独角兽的详细调研对比表,展示了其处理复杂、高强度任务的能力 [16][17] - **办公文档处理**:模型能够理解Office套件的“语言”,可将数万字的PDF和杂乱的Excel数据,自动转化为格式完美、图表专业的麦肯锡风格PPT源文件,解决了从原始数据到专业交付物的转化难题 [18] 技术架构与创新 - **统一模型架构**:K2.5是一个“全能模型”,将视觉理解、文本生成、逻辑推理和工具调用能力原生融合在一个模型内,实现了多模态能力的统一,在处理复杂任务时比依赖插件的模型更流畅 [9][19] - **强化学习驱动的智能体集群**:通过重构强化学习基础设施,K2.5训练出了能够自主组织、分工的Agent集群,面对任务可自行决定所需专家类型和数量并立刻执行,其核心叙事从卷参数、长文本转向了“扩展智能体数量” [5][20] - **开源与成本优势**:K2.5模型是开源的,在多项Agent评测中取得开源SOTA(如HLE 50.2分、BrowseComp 74.9分、DeepSearchQA 77.1分),性能在很多维度优于GPT-5级别的闭源模型,而成本仅为后者的几分之一,降低了企业和开发者获取先进AI能力的门槛 [21][23] 生态扩展与行业影响 - **推出Kimi Code编程工具**:公司发布了可直接集成到VSCode、Cursor、Zed等主流编辑器的Kimi Code产品,具备环境一键迁移和多模态编程(如拍照修代码)能力,旨在通过“视觉+代码”的差异化体验争夺开发者工具市场 [25][26][28] - **开启“超级个体”时代**:该产品基于对“工作流”的深刻理解,走出了Agent Swarm的新路径,其意义在于将用户的价值重新定义在问题定义和决策能力上,而非重复性劳动,使AI革命的工具变得触手可及 [30][32][34] - **降低专业技能门槛**:该技术使得用户无需懂代码、排版或爬虫,只要有审美、逻辑或目标,就能借助Kimi K2.5完成网页制作、PPT设计、市场调研等专业任务,极大扩展了普通人的能力范围 [38]