Workflow
视觉理解
icon
搜索文档
梁文锋和杨植麟,第四次撞车
36氪· 2026-01-29 16:24
文章核心观点 - 2025年以来,DeepSeek与月之暗面(Kimi)在技术路线上已发生四次高度同步的“撞车”式发布,这并非偶然内卷,而是两家公司创始人对大模型产业痛点和未来方向有着相似的判断,并在关键技术路线上进行“和而不同”的创新 [1] - 最近一次“撞车”发生在视觉理解领域,双方均发布了新一代模型(DeepSeek OCR-2与月之暗面K2.5),旨在解决大模型从“语言交互”迈向“全场景交互”的瓶颈,以在多模态商业化竞争中占据主动 [1][4][5] 四次技术路线“撞车”事件 - **第一次(2025年1月20日)**:DeepSeek-R1与Kimi 1.5先后发布,均采用了“基于结果奖励的强化学习”路线 [2] - **第二次(2025年2月18日)**:双方同日发表关于注意力架构的论文,旨在解决Transformer长上下文处理效率低、算力消耗高的痛点。DeepSeek提出NSA(原生稀疏注意力)架构,侧重硬件优化;月之暗面提出MoBA(混合块注意力)架构,在Transformer框架内进行灵活创新 [2] - **第三次(2025年4月)**:DeepSeek发布数学推理模型DeepSeek-Prover-V2,月之暗面也上线了数学推理专项模型,两者核心都采用了“自验证”方式,以提升定理证明的稳定性与准确性 [3] - **第四次(2025年1月27日)**:月之暗面发布并开源新模型Kimi K2.5,DeepSeek上线新一代模型OCR-2,两者均将视觉理解能力作为重大突破点 [1] 视觉理解成为共同攻坚方向的原因 - 根据2025年7月SuperCLUE多模态测评报告,视觉语言模型普遍面临三大痛点:专业领域知识(如医疗影像)欠缺、复杂场景(如自动驾驶)适应不足、多模态融合深度不够(图文不一致时判断准确率不足65%)[5] - 视觉理解是大模型从“语言交互”走向“全场景交互”的必经之路,已成为制约模型商业化落地的关键瓶颈 [5] - 在视觉理解层面,海外模型(Google Gemini、OpenAI GPT 5.2和Claude)已处于领先阶段,国内大模型尚处于追赶和“补课”阶段 [7] 月之暗面K2.5的核心创新与特点 - **视觉理解与编程结合**:K2.5极大增强了视觉理解能力,可分析用户上传的图片、视频,并据此编程或解答问题,降低了开发门槛,让非程序员靠截图录屏也能做出原型 [1][10] - **技术实现**:团队采用约15万亿个Token进行大规模视觉文本联合预训练,并构建了Visual Agentic Intelligence(视觉智能体智能)系统,从视觉理解编码入手分解Agent任务 [7] - **Agent集群(Agent Swarm)功能**:K2.5从单一Agent进化到Agent集群,主Agent能动态生出上百个“子Agent”并行工作,任务执行效率相较于单智能体模式最高提升达4.5倍 [12] - **工程化优势**:K2.5的Agent集群由模型全自动创建与协调,用户无需预定义工作流,实现了动态分工。子Agent拥有各自的工作记忆,只在必要时将结果返回给主调度器,避免了上下文信息污染 [13][14] - **配套工具**:伴随K2.5推出了Kimi Code,可在终端直接运行,也能集成到VSCode、Cursor等主流编辑器中,并能自动发现用户编程过程,迁移现有技能包 [10] DeepSeek OCR-2的核心创新与特点 - **源头技术创新**:DeepSeek更侧重在视觉技术源头进行创新,提出了“视觉因果流”机制 [1] - **技术原理**:OCR-2替换了传统的CLIP编码器,引入全新的视觉编码器DeepEncoder V2。该架构打破了固定顺序(从左到右、从上到下)扫描图像的限制,能像人类一样根据图像内容的语义和逻辑动态调整阅读顺序 [11] 双方技术路径的差异 - **月之暗面K2.5**:基于多模态模型提升工程化性能,更靠近商业落地侧,侧重于将视觉理解与编程、Agent能力紧密结合 [11] - **DeepSeek OCR-2**:更侧重追溯到技术源头进行创新,在视觉编码机制上做出根本性改变 [11] 行业现状与挑战 - **数据挑战**:训练高质量视觉语言模型面临多模态数据匮乏的困难,需要高质量的数据而非普通人日常拍摄的照片,维基百科数据仅属中等质量 [8] - **“技术品味”追求**:月之暗面强调模型需要具备“品味”和审美认知,例如希望模型在UI界面、美学设计上更“浪漫”,这需要匹配相应的数据 [8][10]
DeepSeek发布DeepSeek-OCR 2 让AI学会“人类视觉逻辑”
智通财经· 2026-01-27 15:53
模型发布与技术突破 - DeepSeek于1月27日发布了全新的DeepSeek-OCR2模型,该模型采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像各部分,而非机械地从左到右扫描,模拟了人类观看场景的逻辑流程 [1] - 新模型在处理布局复杂的图片时,表现优于传统的视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解 [1] - 传统的视觉语言模型通常采用从左上到右下的光栅扫描顺序处理图像,难以捕捉复杂排版内容间的真实逻辑关系 [1] 性能表现与基准测试 - 根据技术报告,DeepSeek-OCR2在OmniDocBench v1.5基准测试中取得了91.09%的成绩,相较于前代DeepSeek-OCR模型提升了3.73% [1] - 该模型在保持高精度的同时严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3Pro保持一致 [2] - 在实际生产环境中,模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度 [2] 架构创新与行业意义 - DeepSeek-OCR2的发布不仅是一次OCR性能升级,更具有深远的架构探索意义,其DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力 [2] - 这种架构天然继承了大型语言模型社区在基础设施优化方面的成果,如混合专家架构和高效注意力机制 [2] - 新架构用LLM风格的架构替代了DeepEncoder中的CLIP组件,通过定制注意力掩码,视觉Token使用双向注意力,而可学习的查询则采用因果注意力,使每个查询Token都能关注所有视觉Token及之前的查询,实现对视觉信息的渐进式因果重排 [5]
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 16:32
文章核心观点 - 由港中文MMLab、港理工、北京大学等机构联合开源的PAM模型,在继承SAM2强大分割与追踪能力的基础上,实现了对图像和视频中选定区域的“分割+识别+解释+描述”一体化语义理解,并以更小的参数量在多项基准测试中达到或逼近当前最佳性能 [1][2][8] 模型能力与特点 - PAM模型支持用户通过一次点击或拖拽矩形框,即可并行输出选定区域的分割掩膜(Mask)和丰富的语义文本信息,包括类别、解释和描述 [1][8][11] - 模型具备处理图像、短视频和长视频的能力:对于图像,输出物体类别、解释和精细描述;对于短视频,追踪分割物体并输出事件描述;对于长视频,可动态输出流式描述,类似实时字幕 [8][13][14] - 模型设计实现了性能与轻量的统一,仅使用3B参数,在保证高效推理和较低显存占用的前提下,实现了强大的多模态理解能力 [2][8] 技术架构与创新 - PAM通过引入“Semantic Perceiver”模块,连接SAM2分割骨架与大语言模型,将视觉特征高效翻译成多模态token,从而实现分割掩膜与语义信息的并行解码输出 [17] - 为支撑训练,团队构建了超大规模高质量数据集,包含150万个图像区域和60万个视频区域的标注,覆盖分类、解释、描述、时序事件等多个维度 [2][21] - 在视频数据处理上,采用Storyboard驱动式理解,对每段视频抽取6张关键帧合成高分辨率图像,并利用闭源VLM进行多帧联合推理,生成细节丰富且时间感知强的事件描述 [22][24] - 针对长视频,首创区域级流式视频字幕能力,通过将视频切分为连续事件片段并递归引入前文内容,确保描述在连续事件中保持高度语义一致性 [29][30] 性能表现与基准测试 - 在图像理解基准测试中,PAM-3B模型在PACO基准上达到最佳性能,超过先前最佳模型3.2%以上;在LVIS基准的语义IoU指标上,超越了当前SOTA模型DAM-8B [25] - 在OCR任务上,PAM-3B在Total-Text数据集上的准确率超过VP-SPHINX-13B模型3.5%,在COCO-Text上达到相当性能 [25][26] - 在视频理解多项基准测试中,PAM-3B在Elysium、BensMOT、HC-STVG等数据集上表现优异,例如在Elysium上METEOR得分达到24.3,显著高于对比模型 [27] - 在ImageCaption、VideoCaption、视频时序事件理解等多个评测基准上,PAM以更小的参数规模(3B对比8B、13B)刷新或并列SOTA [28] 开源与数据 - PAM模型的所有代码、模型权重及训练数据均已完全开源,可供社区研究与应用 [3][31]