梁文锋和杨植麟,第四次撞车
36氪·2026-01-29 16:24

文章核心观点 - 2025年以来,DeepSeek与月之暗面(Kimi)在技术路线上已发生四次高度同步的“撞车”式发布,这并非偶然内卷,而是两家公司创始人对大模型产业痛点和未来方向有着相似的判断,并在关键技术路线上进行“和而不同”的创新 [1] - 最近一次“撞车”发生在视觉理解领域,双方均发布了新一代模型(DeepSeek OCR-2与月之暗面K2.5),旨在解决大模型从“语言交互”迈向“全场景交互”的瓶颈,以在多模态商业化竞争中占据主动 [1][4][5] 四次技术路线“撞车”事件 - 第一次(2025年1月20日):DeepSeek-R1与Kimi 1.5先后发布,均采用了“基于结果奖励的强化学习”路线 [2] - 第二次(2025年2月18日):双方同日发表关于注意力架构的论文,旨在解决Transformer长上下文处理效率低、算力消耗高的痛点。DeepSeek提出NSA(原生稀疏注意力)架构,侧重硬件优化;月之暗面提出MoBA(混合块注意力)架构,在Transformer框架内进行灵活创新 [2] - 第三次(2025年4月):DeepSeek发布数学推理模型DeepSeek-Prover-V2,月之暗面也上线了数学推理专项模型,两者核心都采用了“自验证”方式,以提升定理证明的稳定性与准确性 [3] - 第四次(2025年1月27日):月之暗面发布并开源新模型Kimi K2.5,DeepSeek上线新一代模型OCR-2,两者均将视觉理解能力作为重大突破点 [1] 视觉理解成为共同攻坚方向的原因 - 根据2025年7月SuperCLUE多模态测评报告,视觉语言模型普遍面临三大痛点:专业领域知识(如医疗影像)欠缺、复杂场景(如自动驾驶)适应不足、多模态融合深度不够(图文不一致时判断准确率不足65%)[5] - 视觉理解是大模型从“语言交互”走向“全场景交互”的必经之路,已成为制约模型商业化落地的关键瓶颈 [5] - 在视觉理解层面,海外模型(Google Gemini、OpenAI GPT 5.2和Claude)已处于领先阶段,国内大模型尚处于追赶和“补课”阶段 [7] 月之暗面K2.5的核心创新与特点 - 视觉理解与编程结合:K2.5极大增强了视觉理解能力,可分析用户上传的图片、视频,并据此编程或解答问题,降低了开发门槛,让非程序员靠截图录屏也能做出原型 [1][10] - 技术实现:团队采用约15万亿个Token进行大规模视觉文本联合预训练,并构建了Visual Agentic Intelligence(视觉智能体智能)系统,从视觉理解编码入手分解Agent任务 [7] - Agent集群(Agent Swarm)功能:K2.5从单一Agent进化到Agent集群,主Agent能动态生出上百个“子Agent”并行工作,任务执行效率相较于单智能体模式最高提升达4.5倍 [12] - 工程化优势:K2.5的Agent集群由模型全自动创建与协调,用户无需预定义工作流,实现了动态分工。子Agent拥有各自的工作记忆,只在必要时将结果返回给主调度器,避免了上下文信息污染 [13][14] - 配套工具:伴随K2.5推出了Kimi Code,可在终端直接运行,也能集成到VSCode、Cursor等主流编辑器中,并能自动发现用户编程过程,迁移现有技能包 [10] DeepSeek OCR-2的核心创新与特点 - 源头技术创新:DeepSeek更侧重在视觉技术源头进行创新,提出了“视觉因果流”机制 [1] - 技术原理:OCR-2替换了传统的CLIP编码器,引入全新的视觉编码器DeepEncoder V2。该架构打破了固定顺序(从左到右、从上到下)扫描图像的限制,能像人类一样根据图像内容的语义和逻辑动态调整阅读顺序 [11] 双方技术路径的差异 - 月之暗面K2.5:基于多模态模型提升工程化性能,更靠近商业落地侧,侧重于将视觉理解与编程、Agent能力紧密结合 [11] - DeepSeek OCR-2:更侧重追溯到技术源头进行创新,在视觉编码机制上做出根本性改变 [11] 行业现状与挑战 - 数据挑战:训练高质量视觉语言模型面临多模态数据匮乏的困难,需要高质量的数据而非普通人日常拍摄的照片,维基百科数据仅属中等质量 [8] - “技术品味”追求:月之暗面强调模型需要具备“品味”和审美认知,例如希望模型在UI界面、美学设计上更“浪漫”,这需要匹配相应的数据 [8][10]

梁文锋和杨植麟,第四次撞车 - Reportify