Agent集群 - 财报，业绩电话会，研报，新闻

Agent集群

搜索文档

36氪· 2026-01-29 16:24

文章核心观点 - 2025年以来，DeepSeek与月之暗面（Kimi）在技术路线上已发生四次高度同步的“撞车”式发布，这并非偶然内卷，而是两家公司创始人对大模型产业痛点和未来方向有着相似的判断，并在关键技术路线上进行“和而不同”的创新 [1] - 最近一次“撞车”发生在视觉理解领域，双方均发布了新一代模型（DeepSeek OCR-2与月之暗面K2.5），旨在解决大模型从“语言交互”迈向“全场景交互”的瓶颈，以在多模态商业化竞争中占据主动 [1][4][5] 四次技术路线“撞车”事件 - **第一次（2025年1月20日）**：DeepSeek-R1与Kimi 1.5先后发布，均采用了“基于结果奖励的强化学习”路线 [2] - **第二次（2025年2月18日）**：双方同日发表关于注意力架构的论文，旨在解决Transformer长上下文处理效率低、算力消耗高的痛点。DeepSeek提出NSA（原生稀疏注意力）架构，侧重硬件优化；月之暗面提出MoBA（混合块注意力）架构，在Transformer框架内进行灵活创新 [2] - **第三次（2025年4月）**：DeepSeek发布数学推理模型DeepSeek-Prover-V2，月之暗面也上线了数学推理专项模型，两者核心都采用了“自验证”方式，以提升定理证明的稳定性与准确性 [3] - **第四次（2025年1月27日）**：月之暗面发布并开源新模型Kimi K2.5，DeepSeek上线新一代模型OCR-2，两者均将视觉理解能力作为重大突破点 [1] 视觉理解成为共同攻坚方向的原因 - 根据2025年7月SuperCLUE多模态测评报告，视觉语言模型普遍面临三大痛点：专业领域知识（如医疗影像）欠缺、复杂场景（如自动驾驶）适应不足、多模态融合深度不够（图文不一致时判断准确率不足65%）[5] - 视觉理解是大模型从“语言交互”走向“全场景交互”的必经之路，已成为制约模型商业化落地的关键瓶颈 [5] - 在视觉理解层面，海外模型（Google Gemini、OpenAI GPT 5.2和Claude）已处于领先阶段，国内大模型尚处于追赶和“补课”阶段 [7] 月之暗面K2.5的核心创新与特点 - **视觉理解与编程结合**：K2.5极大增强了视觉理解能力，可分析用户上传的图片、视频，并据此编程或解答问题，降低了开发门槛，让非程序员靠截图录屏也能做出原型 [1][10] - **技术实现**：团队采用约15万亿个Token进行大规模视觉文本联合预训练，并构建了Visual Agentic Intelligence（视觉智能体智能）系统，从视觉理解编码入手分解Agent任务 [7] - **Agent集群（Agent Swarm）功能**：K2.5从单一Agent进化到Agent集群，主Agent能动态生出上百个“子Agent”并行工作，任务执行效率相较于单智能体模式最高提升达4.5倍 [12] - **工程化优势**：K2.5的Agent集群由模型全自动创建与协调，用户无需预定义工作流，实现了动态分工。子Agent拥有各自的工作记忆，只在必要时将结果返回给主调度器，避免了上下文信息污染 [13][14] - **配套工具**：伴随K2.5推出了Kimi Code，可在终端直接运行，也能集成到VSCode、Cursor等主流编辑器中，并能自动发现用户编程过程，迁移现有技能包 [10] DeepSeek OCR-2的核心创新与特点 - **源头技术创新**：DeepSeek更侧重在视觉技术源头进行创新，提出了“视觉因果流”机制 [1] - **技术原理**：OCR-2替换了传统的CLIP编码器，引入全新的视觉编码器DeepEncoder V2。该架构打破了固定顺序（从左到右、从上到下）扫描图像的限制，能像人类一样根据图像内容的语义和逻辑动态调整阅读顺序 [11] 双方技术路径的差异 - **月之暗面K2.5**：基于多模态模型提升工程化性能，更靠近商业落地侧，侧重于将视觉理解与编程、Agent能力紧密结合 [11] - **DeepSeek OCR-2**：更侧重追溯到技术源头进行创新，在视觉编码机制上做出根本性改变 [11] 行业现状与挑战 - **数据挑战**：训练高质量视觉语言模型面临多模态数据匮乏的困难，需要高质量的数据而非普通人日常拍摄的照片，维基百科数据仅属中等质量 [8] - **“技术品味”追求**：月之暗面强调模型需要具备“品味”和审美认知，例如希望模型在UI界面、美学设计上更“浪漫”，这需要匹配相应的数据 [8][10]

新京报· 2026-01-27 19:37

模型发布与核心能力 - 月之暗面于1月27日发布并开源Kimi K2.5模型，公司称其为迄今最智能、最全能的模型 [1] - 模型在多模态能力上取得突破，采用原生多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务 [1] - 模型在代码能力上显著提升，支持从自然语言对话生成完整前端界面，并能通过视觉能力解析用户上传的录屏，自动拆解交互逻辑并用代码复现 [1] - 模型实现从单一Agent到Agent集群的进化，能根据任务需求现场调度多达100个分身，并行处理1500个步骤，由主agent负责最终结果验收 [1] 产品模式与功能细分 - Kimi K2.5上线四种具体模式：K2.5快速（快速响应）、K2.5思考（支持多轮搜索思考回答复杂问题）、K2.5 Agent（支持解读PPT、研报、网站、文档、表格等）、K2.5 Agent集群（支持海量搜索、长文写作、批量处理） [2] 商业化模式更新 - 此次版本更新伴随着会员权益变更，使公司商业化模式进一步清晰 [2] - 免费版用户每月可获得1次深度研究、3次OK Computer、3次PPT的使用次数 [2] - 付费会员支付不同费用可在每月享受不同次数的相应服务 [2]

贝壳财经· 2026-01-27 19:16

模型发布与核心能力 - 月之暗面于1月27日发布并开源Kimi K2.5模型，公司称其为迄今最智能、最全能的模型 [1] - 模型实现多模态能力突破，采用原生多模态架构设计，支持视觉与文本输入、思考与非思考模式、对话与Agent任务 [1] - 模型显著提升开源模型的代码水平，支持从自然语言对话生成完整前端界面，并能通过上传录屏自动拆解交互逻辑并用代码复现 [1] - 模型实现从单一Agent到Agent集群的进化，能根据任务需求现场调度多达100个分身，并行处理1500个步骤 [1] 产品模式与功能细分 - Kimi K2.5上线四种模式：K2.5快速（快速响应）、K2.5思考（支持多轮搜索思考回答复杂问题）、K2.5 Agent（支持解读PPT、研报、网站、文档、表格等）、K2.5 Agent集群（支持海量搜索、长文写作、批量处理） [2] 商业化策略更新 - 版本更新伴随会员权益变更，使商业化模式进一步清晰 [2] - 免费版用户每月可获得1次深度研究、3次OK Computer、3次PPT的使用次数 [2] - 付费会员支付不同费用可在每月享受不同次数的相应服务 [2]

多模态能力

Agent集群

Artificial Intelligence

Kimi K2.5模型

多模态能力

Agent集群

Artificial Intelligence

Kimi K2.5模型