Agent集群
搜索文档
梁文锋和杨植麟,第四次撞车
36氪· 2026-01-29 16:24
文章核心观点 - 2025年以来,DeepSeek与月之暗面(Kimi)在技术路线上已发生四次高度同步的“撞车”式发布,这并非偶然内卷,而是两家公司创始人对大模型产业痛点和未来方向有着相似的判断,并在关键技术路线上进行“和而不同”的创新 [1] - 最近一次“撞车”发生在视觉理解领域,双方均发布了新一代模型(DeepSeek OCR-2与月之暗面K2.5),旨在解决大模型从“语言交互”迈向“全场景交互”的瓶颈,以在多模态商业化竞争中占据主动 [1][4][5] 四次技术路线“撞车”事件 - **第一次(2025年1月20日)**:DeepSeek-R1与Kimi 1.5先后发布,均采用了“基于结果奖励的强化学习”路线 [2] - **第二次(2025年2月18日)**:双方同日发表关于注意力架构的论文,旨在解决Transformer长上下文处理效率低、算力消耗高的痛点。DeepSeek提出NSA(原生稀疏注意力)架构,侧重硬件优化;月之暗面提出MoBA(混合块注意力)架构,在Transformer框架内进行灵活创新 [2] - **第三次(2025年4月)**:DeepSeek发布数学推理模型DeepSeek-Prover-V2,月之暗面也上线了数学推理专项模型,两者核心都采用了“自验证”方式,以提升定理证明的稳定性与准确性 [3] - **第四次(2025年1月27日)**:月之暗面发布并开源新模型Kimi K2.5,DeepSeek上线新一代模型OCR-2,两者均将视觉理解能力作为重大突破点 [1] 视觉理解成为共同攻坚方向的原因 - 根据2025年7月SuperCLUE多模态测评报告,视觉语言模型普遍面临三大痛点:专业领域知识(如医疗影像)欠缺、复杂场景(如自动驾驶)适应不足、多模态融合深度不够(图文不一致时判断准确率不足65%)[5] - 视觉理解是大模型从“语言交互”走向“全场景交互”的必经之路,已成为制约模型商业化落地的关键瓶颈 [5] - 在视觉理解层面,海外模型(Google Gemini、OpenAI GPT 5.2和Claude)已处于领先阶段,国内大模型尚处于追赶和“补课”阶段 [7] 月之暗面K2.5的核心创新与特点 - **视觉理解与编程结合**:K2.5极大增强了视觉理解能力,可分析用户上传的图片、视频,并据此编程或解答问题,降低了开发门槛,让非程序员靠截图录屏也能做出原型 [1][10] - **技术实现**:团队采用约15万亿个Token进行大规模视觉文本联合预训练,并构建了Visual Agentic Intelligence(视觉智能体智能)系统,从视觉理解编码入手分解Agent任务 [7] - **Agent集群(Agent Swarm)功能**:K2.5从单一Agent进化到Agent集群,主Agent能动态生出上百个“子Agent”并行工作,任务执行效率相较于单智能体模式最高提升达4.5倍 [12] - **工程化优势**:K2.5的Agent集群由模型全自动创建与协调,用户无需预定义工作流,实现了动态分工。子Agent拥有各自的工作记忆,只在必要时将结果返回给主调度器,避免了上下文信息污染 [13][14] - **配套工具**:伴随K2.5推出了Kimi Code,可在终端直接运行,也能集成到VSCode、Cursor等主流编辑器中,并能自动发现用户编程过程,迁移现有技能包 [10] DeepSeek OCR-2的核心创新与特点 - **源头技术创新**:DeepSeek更侧重在视觉技术源头进行创新,提出了“视觉因果流”机制 [1] - **技术原理**:OCR-2替换了传统的CLIP编码器,引入全新的视觉编码器DeepEncoder V2。该架构打破了固定顺序(从左到右、从上到下)扫描图像的限制,能像人类一样根据图像内容的语义和逻辑动态调整阅读顺序 [11] 双方技术路径的差异 - **月之暗面K2.5**:基于多模态模型提升工程化性能,更靠近商业落地侧,侧重于将视觉理解与编程、Agent能力紧密结合 [11] - **DeepSeek OCR-2**:更侧重追溯到技术源头进行创新,在视觉编码机制上做出根本性改变 [11] 行业现状与挑战 - **数据挑战**:训练高质量视觉语言模型面临多模态数据匮乏的困难,需要高质量的数据而非普通人日常拍摄的照片,维基百科数据仅属中等质量 [8] - **“技术品味”追求**:月之暗面强调模型需要具备“品味”和审美认知,例如希望模型在UI界面、美学设计上更“浪漫”,这需要匹配相应的数据 [8][10]
月之暗面Kimi发布新模型 付费模式更新
新京报· 2026-01-27 19:37
模型发布与核心能力 - 月之暗面于1月27日发布并开源Kimi K2.5模型,公司称其为迄今最智能、最全能的模型 [1] - 模型在多模态能力上取得突破,采用原生多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务 [1] - 模型在代码能力上显著提升,支持从自然语言对话生成完整前端界面,并能通过视觉能力解析用户上传的录屏,自动拆解交互逻辑并用代码复现 [1] - 模型实现从单一Agent到Agent集群的进化,能根据任务需求现场调度多达100个分身,并行处理1500个步骤,由主agent负责最终结果验收 [1] 产品模式与功能细分 - Kimi K2.5上线四种具体模式:K2.5快速(快速响应)、K2.5思考(支持多轮搜索思考回答复杂问题)、K2.5 Agent(支持解读PPT、研报、网站、文档、表格等)、K2.5 Agent集群(支持海量搜索、长文写作、批量处理) [2] 商业化模式更新 - 此次版本更新伴随着会员权益变更,使公司商业化模式进一步清晰 [2] - 免费版用户每月可获得1次深度研究、3次OK Computer、3次PPT的使用次数 [2] - 付费会员支付不同费用可在每月享受不同次数的相应服务 [2]
月之暗面Kimi发布新模型,付费模式更新
贝壳财经· 2026-01-27 19:16
模型发布与核心能力 - 月之暗面于1月27日发布并开源Kimi K2.5模型,公司称其为迄今最智能、最全能的模型 [1] - 模型实现多模态能力突破,采用原生多模态架构设计,支持视觉与文本输入、思考与非思考模式、对话与Agent任务 [1] - 模型显著提升开源模型的代码水平,支持从自然语言对话生成完整前端界面,并能通过上传录屏自动拆解交互逻辑并用代码复现 [1] - 模型实现从单一Agent到Agent集群的进化,能根据任务需求现场调度多达100个分身,并行处理1500个步骤 [1] 产品模式与功能细分 - Kimi K2.5上线四种模式:K2.5快速(快速响应)、K2.5思考(支持多轮搜索思考回答复杂问题)、K2.5 Agent(支持解读PPT、研报、网站、文档、表格等)、K2.5 Agent集群(支持海量搜索、长文写作、批量处理) [2] 商业化策略更新 - 版本更新伴随会员权益变更,使商业化模式进一步清晰 [2] - 免费版用户每月可获得1次深度研究、3次OK Computer、3次PPT的使用次数 [2] - 付费会员支付不同费用可在每月享受不同次数的相应服务 [2]