Workflow
智能体集群
icon
搜索文档
Kimi K2.5登顶开源第一!15T数据训练秘籍公开,杨植麟剧透K3
量子位· 2026-02-03 08:37
开源模型市场表现 - Kimi K2.5在开源社区平台Hugging Face上成为趋势榜首,下载量超过5.3万次 [2] 模型核心能力与性能 - Kimi K2.5主打智能体(Agent)能力,在HLE-Full、BrowseComp等测试集中,其表现超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型 [3] - 在BrowseComp测试中达到比GPT-5.2更高的表现,而资金消耗仅有不到5%,显示出极高的性价比 [9] 技术架构与训练方法 - 模型采用原生多模态技术路线,使用同一套参数空间直接处理视觉信号与文本逻辑 [7] - 在K2架构基础上,投入了15万亿(15T)的视觉与文本混合Token进行持续预训练 [6] - 在15T的庞大数据量级下,模型的视觉理解与文本推理能力实现了同步增强 [8] 视觉编程与自动化调试 - 基于原生多模态底座,K2.5解锁了“视觉编程”能力,能够从视频流直接逆向推导代码 [11] - 模型能够从包含复杂特效的网页演示视频中,捕捉视觉元素随时间变化的规律,并直接映射为可执行的前端代码,实现从设计演示到代码实现的无损转化 [12] - 模型集成了自主视觉调试机制,在代码生成并渲染界面后,会调用视觉感知能力对实际运行页面进行验收,发现问题后自动触发文档查询工具进行定位和修正,形成“生成-观察-查阅-修复”的自动化闭环 [14][15][16] 智能体集群系统 - Kimi K2.5搭载了Agent Swarm架构,能够自主构建并编排多达100个子智能体,并支持调用1500个工具的并行工作流 [17] - 该系统将复杂任务拆解为同步进行的子任务,利用集群算力大幅压缩处理时间 [18] - 系统采用PARL(并行智能体强化学习)框架进行指挥,由调度器负责宏观任务拆解与分发,参数冻结的子智能体负责高效执行具体指令 [20][21][22] - 训练过程采用阶段性奖励塑造策略,初期优先激励调度器进行并行化探索,后期奖励重心平滑过渡至任务最终成功率 [25][26] - 效率评估引入临界步骤作为核心指标,聚焦调度开销与最慢子智能体的耗时,以缩短端到端实际等待时间为目标,在极致速度与计算资源消耗之间寻找平衡 [28] 团队沟通与未来展望 - 月之暗面三位创始人在Reddit进行了长达3小时的AMA问答,与全球开发者交流 [29][30] - 对于下一代Kimi K3,团队预告其很可能基于线性注意力机制,并预期相比K2.5将会有质的飞跃,甚至可能有10倍的提升 [31][32] - 团队解释K2.5偶尔会自称Claude的现象,是由于模型训练数据中包含了大量高质量的编程数据,而这些数据里充斥着Claude的名字 [34] - 团队认为堆砌算力不是通往AGI的唯一路径,在有限资源下追求更高效的算法和更聪明的架构是其核心目标 [38]
中国AI“三杰”同日轰炸,召唤百个Agent的门票终于发到每个人手里
观察者网· 2026-01-28 17:37
文章核心观点 - 月之暗面公司发布的Kimi K2.5模型,通过原生多模态和智能体集群等核心能力,将AI从“副驾驶”工具进化为可直接交付生产力的“同事”或“超级个体”,实现了从提供软件(SaaS)到提供服务(Service)的根本性商业范式转移 [8][22][24] 产品与技术能力 - **技术路线图清晰连贯**:K1时代构建超长上下文“记忆”,K2时代通过智能体解决“行动”,K2.5时代通过多模态和集群解决“感知与组织”,最终形成一个能看、能想、能干、能协作的“超级个体” [8] - **硬核基准测试表现卓越**:在SWE-Bench Verified和HLE等测试中,Kimi不仅超越DeepSeek V3位列开源第一,更在多项指标上击败闭源的GPT 5.2和Gemini 3 Pro,实现全球第一 [9] - **原生多模态能力颠覆开发流程**:K2.5的核心升级之一是原生多模态,视觉理解能力与语言、代码能力深度融合,用户仅需提供草图或涂鸦,Kimi即可生成包含完整HTML、CSS和JS的可运行代码,具备“动态理解”和“审美溢价”能力 [11][13][15] - **智能体集群重构组织形式**:K2.5引入的Agent Swarm架构,使主模型能作为“总指挥”自动创建并调度数十个AI分身并行协作,将复杂任务的处理链条大幅坍缩 [17][21] 效率与生产力提升 - **大幅缩短产品开发周期**:传统创意上线流程需数周乃至数月,K2.5将其坍缩为“决策者直连Kimi”的单节点,实现“所见即生成” [14][16] - **智能体集群显著提升效率**:在大规模搜索场景下,与单Agent相比,Agent集群将达成目标所需的最少关键步骤减少3到4.5倍,实际运行时间最高可缩短4.5倍 [19] - **深度集成办公场景提升人效**:K2.5可深度集成进Excel、Word等工作流,将处理万行数据表等需数天的工作量压缩至几分钟,提供强大的“人效杠杆” [20][21] 商业模式与市场影响 - **商业逻辑从“卖铲子”转向“帮你挖井”**:公司瞄准的不是销售软件工具,而是直接提供生产力服务,实现了从软件(Software)到服务(Service)的范式转移 [22] - **通过开源确立标准,通过云端服务盈利**:尽管K2.5开源,但企业自建“数字员工”的算力与运维成本高昂,公司通过极致优化的API服务实现利润,其价值主张极具吸引力 [23] - **市场增长与付费意愿强劲**:2025年下半年,公司全球付费用户数月增速达170%,自11月以来海外大模型API收入增长4倍,证明了开源模型可实现商业闭环且市场愿为“结果”付费 [23] - **切入广阔业务流程外包市场**:公司切入的不仅是软件市场,更是规模超3000亿美元的业务流程外包市场,使AI以“服务交付”形式直接进入劳动力市场 [23] - **估值快速攀升反映市场认可**:公司在12月31日完成5亿美元融资后,不到一个月估值即从43亿美元推升至48亿美元 [22] 行业趋势与未来展望 - **AI从“Copilot”进化为“Coworker”**:AI正在成为一个不可逆的时代洪流,从辅助工具全面进化为可直接协作的“同事” [24] - **重新定义企业核心资产与组织形态**:未来创业可能不再需要庞大团队,而只需足够算力配额;公司的核心资产可能从“人头数”转向“Agent调度能力” [24] - **技术的终极价值在于赋能于人**:技术的价值不在于其本身有多聪明,而在于能让多少人变得更强大,真正被重新定价的是人的想象力边界 [26]
刚刚,杨植麟亲自开源Kimi K2.5!国产大模型打架的一天
机器之心· 2026-01-27 17:45
模型发布与核心参数 - 月之暗面公司发布了Kimi K2.5模型,这是一个拥有1万亿参数(1 trillion)的MoE基础模型,并且依然保持开源[4] - 新模型相较前代,视觉理解能力大幅增强,可以处理视频,同时编程能力也有明显提升[4] 模型性能与基准测试 - 在极具挑战性的agent评测上取得当前最佳表现(SOTA),例如在HLE(人类最后考试)上拿到50.2%,在BrowseComp上拿到74.9%[4] - 编程能力突出,在SWE-bench Verified上拿到76.8%,缩小了与顶尖闭源模型之间的差距[4] - 在多项视觉理解评测上实现了当前开源最佳效果[4] - 在核心基准测试上,Kimi K2.5的成绩与Opus 4.5、GPT 5.2 XHigh和Gemini 3.0 Pro等当前最强大闭源模型基本相当,部分评分还能超出[6] - 在多项评测中优于GPT-5.2-xhigh的同时,运行成本只有GPT-5.2-xhigh的几分之一[7] 核心能力:全能模型与视觉转代码 - Kimi K2.5是一个全能模型(all in one,Unified model),集成了视觉、文本、对话、agent、思考与非思考等所有能力[12] - 模型主打图像转代码功能,用户只需提供设计稿或界面截图,AI即可生成相应代码,无需编写提示词[12][13] - 模型能理解视频内容,例如将录屏的动画效果自动写成代码进行复现[14] - 结合视觉能力,模型具备一定的“设计审美”,能构建出具有高级审美和动效的网页[15] 智能体集群(Agent Swarm)功能 - Kimi K2.5引入了“Agent Swarm(Agent集群)”功能,在处理复杂任务时,模型能以指挥者身份现场调度并协同最多达100个Agent分身并行工作[21] - 该功能最多支持1500次工具调用,速度比单智能体配置快4.5倍[21] - 智能体集群由Kimi K2.5自动创建和编排,无需任何预定义,经过了并行智能体强化学习训练[22] - 这种并行处理能力能将原本需要数天完成的工作压缩至十几分钟[25] - 在处理真实世界知识工作时,K2.5 Agent可以端到端处理高密度、大规模的办公任务,覆盖文档、电子表格、PDF和幻灯格式,输出能力可达一万字论文或100页文档[29] 实测应用案例 - **多模态推理**:模型能正确识别手绘的《生活大爆炸》谢尔顿公寓平面图背景,并能将其重构成3D版本[37][40] - **智能体集群任务**:在测试中,为一种虚构的深海智慧生物开发一套包含200个基础词条和3篇创世神话的词汇表,整个过程耗时38分钟,创建了名为“流明语”的新语言[47][51] - **编程助手Kimi Code**:基于Kimi K2.5的Kimi Code正式发布,能集成到VSCode、Cursor、Zed等IDE中,支持输入图片和视频[16] - **Kimi Code实测**:在创建黄金价格监控器的任务中,整个执行过程耗时约4分钟[55][56];在批量处理94个文件的任务中,不到两分钟即完成,上下文占用量仅刚超过10%[62] 行业影响与定位 - 中国的开源模型正在逐渐成为新的标准,Kimi K2.5的发布给全球开源大模型树立了新的标杆[65] - 基于K2.5视觉、智能体能力的发展,AI解锁了更多在真实世界中解决复杂问题的能力[66] - 行业认为Kimi 2.5在智能体能力上已经足以比肩前沿模型,其智能体集群模式在解决复杂任务上的表现亮眼[64]
全能视觉助手来了!Kimi低调上线K2.5,可同时调度100个智能体,效率最高提升4.5倍
华尔街见闻· 2026-01-27 14:57
公司产品与技术升级 - 月之暗面低调推出旗舰模型Kimi k2.5,未举行公开发布会,旨在通过技术实质性提升巩固市场地位 [1] - Kimi k2.5采用原生多模态架构,可通过单一提示词同时处理文本、图像和视频 [1] - 模型核心突破是“智能体集群”能力,能自主调度多达100个子智能体并行工作,使复杂任务执行时间相比单智能体配置缩短最高4.5倍 [1] - 模型已通过网页版、App及API平台向用户开放,在强化长文本优势的同时,引入视觉理解和自动化代码生成工具,以拓展企业级应用和开发者生态 [3] 原生多模态与视觉能力 - Kimi k2.5使用约15T的混合视觉和文本标记进行预训练,具备深层视觉理解能力,超越简单OCR [5] - 模型能理解并分析复杂的电路图、手写数学公式或财务报表中的逻辑 [5] - 在编程领域,模型具备强大的视觉编码能力,可根据图像或视频输入直接生成完整前端界面代码,并支持可视化调试 [5] 智能体集群协同技术 - 智能体集群是此次更新的核心亮点,K2.5引入了并行智能体强化学习(PARL)技术,可自主管理编排100个子智能体集群 [7] - 在处理大规模搜索等复杂工作流时,模型能自动分解任务为可并行的子任务,无需预定义角色或流程 [7] - 内部测试显示,并行处理机制将端到端运行时间减少了80%,并支持多达1500个协调步骤的并行工作流 [7] 性能基准与办公效率 - 在HLE、BrowseComp和SWE-Verified等代理基准测试中,K2.5表现优于开源同行,在编程和逻辑推理领域缩小了与顶级专有模型的差距 [9] - 其自动化编码工具旨在与Anthropic PBC旗下的Claude Code竞争 [9] - 内部“AI Office基准测试”显示,相比前代K2 Thinking版本,新模型在处理文档、电子表格及构建金融模型等端到端任务上的性能提升了59.3% [9] 融资背景与市场竞争 - 月之暗面近期完成一轮融资,从包括阿里巴巴和IDG Capital在内的投资者手中筹集了5亿美元,投后估值达43亿美元,目前正寻求以最高50亿美元的估值进行新一轮融资 [3] - 公司由前清华大学教授Yang Zhilin创立,其在Meta和Google均有人工智能项目经验 [10] - 在市场份额上面临智谱(Zhipu)和MiniMax等对手的激烈竞争,后两者近期已在香港通过IPO合计募集超过10亿美元 [10] - 中国大模型市场竞争白热化,进入淘汰赛阶段,月之暗面在竞争对手DeepSeek预计发布重大更新前推出K2.5,意在证明其技术迭代和资本吸引力上的领先地位 [3][10]
红杉AI峰会六大关键议题解读(2):AI操作系统崛起,从“被调用”到“主动调度”的范式转变
海通国际证券· 2025-05-13 21:06
AI操作系统发展趋势 - 2025年红杉AI峰会认为AI操作系统崛起是人工智能应用发展关键转折点,标志AI从“被调用”到“主动调度”转变[1][7] - AI操作系统重构人机交互方式,从工具变为任务执行中枢,ChatGPT成为“操作系统级别的存在”[2][8] - AI从“一个模型”进化为“多个智能体协同”系统结构,“Agent Inbox”范式构建“AI任务流水线”[3][9] AI操作系统核心竞争力与应用 - AI操作系统核心竞争力是“任务执行力”,商业价值基于实际执行成果而非技术演示能力[4][10] - AI操作系统向汽车、金融、教育、政务等行业渗透,构建“全流程智能闭环”执行系统[4][11] 行业前景与风险 - AI操作系统崛起将成下一轮科技浪潮起点,有望成为类iOS/Android级平台机会[5][12] - AI操作系统发展面临需求不及预期、地缘政治干扰供应链、数据中心建造放缓风险[6][13] 评级相关 - 海通国际采用相对评级系统,优于大市指未来12 - 18个月预期相对基准指数涨幅10%以上,中性变化不大,弱于大市跌幅10%以上[20][24][25] - 截至2025年3月31日,海通国际股票研究覆盖率中优于大市占92.2%,中性7.5%,弱于大市0.3%[26][28] 报告发布与合规 - 非印度证券研究报告由HTIRL发行,印度证券由HSIPL发行,均以海通国际为名全球发布[43][44][47][48][49] - 报告对不同地区投资者有分发和交易相关通知,使用有免责声明[54][55][57][58][65][74]