Workflow
指代鸿沟
icon
搜索文档
刚刚,DeepSeek多模态技术范式公布,以视觉原语思考
机器之心· 2026-04-30 18:58
文章核心观点 - DeepSeek联合北京大学、清华大学发布了一项开创性的多模态技术“Thinking with Visual Primitives”,旨在解决当前多模态大模型普遍存在的“指代鸿沟”问题,即模型能“看见”图像但无法在推理过程中精确“想清楚”和指代视觉对象[10][11] - 该技术的核心创新在于将空间坐标(如边界框和点)作为基本“思维单元”融入推理过程,使模型的逻辑链能锚定在图像物理坐标上,从而显著提升了在复杂计数、空间推理及拓扑推理等任务上的性能[7][20][22] - 在多项基准测试中,尤其是在主流前沿模型普遍表现欠佳的拓扑推理任务上,该模型实现了显著超越,例如在迷宫导航任务上达到66.9%的准确率,领先GPT-5.4约16个百分点,在路径追踪任务上达到56.7%,领先GPT-5.4约10个百分点[41][44] 技术背景与问题定义 - 当前多模态大模型面临“指代鸿沟”的根本瓶颈:模型使用自然语言进行思维链推理时,对视觉对象的描述(如“左边那个”)天生模糊,导致在密集或复杂场景中注意力“漂移”,最终得出错误结论[10][14] - 学术界此前主要致力于解决“感知鸿沟”,即通过高分辨率切割等技术让模型“看得更清”,但DeepSeek指出“看见”和“能说清楚在说哪个”是两件不同的事,精确的“指代能力”无法被更强的感知能力所替代[14][15] 模型架构与核心创新 - **架构基础**:以DeepSeek刚发布的V4-Flash模型为语言主干,这是一个总参数284B、推理时激活13B参数的混合专家模型,视觉编码部分采用自研的ViT,支持任意分辨率输入[16][17] - **核心创新一:视觉原语作为思维单元**:将边界框(`<|box|>`)和点坐标(`<|point|>`)作为推理的基本单位,像文字一样穿插在思维链中输出,使模型在提及视觉对象时能同步输出其精确坐标,从而将逻辑链锚定在图片物理坐标上,防止漂移[19][20][22] - **核心创新二:高效的视觉压缩**:通过ViT处理、3×3空间压缩及内置的压缩稀疏注意力机制,将一张756×756图片的视觉信息最终压缩至仅81个KV缓存条目,从原始像素到最终缓存条目的整体压缩比高达7056倍[24][25] - **效率对比**:处理一张800×800的图片,该模型仅需约90个KV缓存条目,而Claude Sonnet 4.6需要约870个,Gemini-3-Flash需要约1100个,表明精确的空间指代能力可在一定程度上弥补视觉token的不足[27] 训练数据与策略 - **冷启动数据构建**:从近10万个目标检测相关数据集中,经严格筛选保留约3.17万个高质量数据源,生成超过4000万条训练样本[29] - **专项任务设计**:针对“思考与视觉原语”设计了四类专项训练任务: 1. **计数任务**:分粗粒度与细粒度计数,训练模型“批量锁定”或“逐一扫描”的策略[30] 2. **空间推理与视觉问答**:利用GQA和CLEVR数据集生成多跳推理样本,迫使模型在每一步都用边界框锁定对象[32] 3. **迷宫导航**:生成46万条样本,训练模型用点坐标记录探索轨迹和回溯路径[34] 4. **路径追踪**:生成12.5万条样本,重点挑战曲线交叉时的歧义消解能力[36] - **后训练策略**:采用“先专家化,后统一”的四步法,包括分别训练边界框和点坐标专家模型、对专家模型进行精细奖励设计的强化学习、统一的强化微调以及在线策略蒸馏来弥合性能差距[38][39][40] 实验结果与性能表现 - **整体评测**:在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流前沿模型进行对比[42] - **计数任务**:在Pixmo-Count基准上以89.2%的精确匹配率超过Gemini-3-Flash的88.2%,大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%[44] - **空间推理任务**:在MIHBench上以85.3%的准确率排名第一,在SpatialMQA上以69.4%的准确率排名第一[44] - **拓扑推理任务(核心优势)**: - 在迷宫导航任务上达到66.9%的准确率,而GPT-5.4为50.6%,Gemini-3-Flash为49.4%,Claude Sonnet 4.6为48.9%,提升约17个百分点[44] - 在路径追踪任务上达到56.7%的准确率,对比GPT-5.4的46.5%和Gemini-3-Flash的41.4%,优势明显[44] 技术意义与行业影响 - 该研究为多模态AI的发展提供了新的思路,挑战了主流依赖更大模型、更高分辨率、更多数据的叙事,提出通过提升模型的精确指代和空间锚定能力来增强推理效果[57][58] - 技术引入了一种类似人类“用手指点着想”的思考姿势,为多模态推理增添了一种此前AI缺失的基础能力[58] 当前局限性与未来方向 - 模型需要明确的“触发词”来启用视觉原语机制,尚不能自主判断何时使用该机制[60] - 受输入分辨率限制,在极细粒度场景中,视觉原语的位置偶尔不够精准[60] - 用点坐标解决复杂拓扑推理问题的跨场景泛化能力仍有局限[60] - 团队认为与现有高分辨率感知方案结合是自然的下一步[60]