指代鸿沟 - 财报，业绩电话会，研报，新闻

指代鸿沟

搜索文档

机器之心· 2026-04-30 18:58

文章核心观点 - DeepSeek联合北京大学、清华大学发布了一项开创性的多模态技术“Thinking with Visual Primitives”，旨在解决当前多模态大模型普遍存在的“指代鸿沟”问题，即模型能“看见”图像但无法在推理过程中精确“想清楚”和指代视觉对象[10][11] - 该技术的核心创新在于将空间坐标（如边界框和点）作为基本“思维单元”融入推理过程，使模型的逻辑链能锚定在图像物理坐标上，从而显著提升了在复杂计数、空间推理及拓扑推理等任务上的性能[7][20][22] - 在多项基准测试中，尤其是在主流前沿模型普遍表现欠佳的拓扑推理任务上，该模型实现了显著超越，例如在迷宫导航任务上达到66.9%的准确率，领先GPT-5.4约16个百分点，在路径追踪任务上达到56.7%，领先GPT-5.4约10个百分点[41][44] 技术背景与问题定义 - 当前多模态大模型面临“指代鸿沟”的根本瓶颈：模型使用自然语言进行思维链推理时，对视觉对象的描述（如“左边那个”）天生模糊，导致在密集或复杂场景中注意力“漂移”，最终得出错误结论[10][14] - 学术界此前主要致力于解决“感知鸿沟”，即通过高分辨率切割等技术让模型“看得更清”，但DeepSeek指出“看见”和“能说清楚在说哪个”是两件不同的事，精确的“指代能力”无法被更强的感知能力所替代[14][15] 模型架构与核心创新 - **架构基础**：以DeepSeek刚发布的V4-Flash模型为语言主干，这是一个总参数284B、推理时激活13B参数的混合专家模型，视觉编码部分采用自研的ViT，支持任意分辨率输入[16][17] - **核心创新一：视觉原语作为思维单元**：将边界框（`<|box|>`）和点坐标（`<|point|>`）作为推理的基本单位，像文字一样穿插在思维链中输出，使模型在提及视觉对象时能同步输出其精确坐标，从而将逻辑链锚定在图片物理坐标上，防止漂移[19][20][22] - **核心创新二：高效的视觉压缩**：通过ViT处理、3×3空间压缩及内置的压缩稀疏注意力机制，将一张756×756图片的视觉信息最终压缩至仅81个KV缓存条目，从原始像素到最终缓存条目的整体压缩比高达7056倍[24][25] - **效率对比**：处理一张800×800的图片，该模型仅需约90个KV缓存条目，而Claude Sonnet 4.6需要约870个，Gemini-3-Flash需要约1100个，表明精确的空间指代能力可在一定程度上弥补视觉token的不足[27] 训练数据与策略 - **冷启动数据构建**：从近10万个目标检测相关数据集中，经严格筛选保留约3.17万个高质量数据源，生成超过4000万条训练样本[29] - **专项任务设计**：针对“思考与视觉原语”设计了四类专项训练任务： 1. **计数任务**：分粗粒度与细粒度计数，训练模型“批量锁定”或“逐一扫描”的策略[30] 2. **空间推理与视觉问答**：利用GQA和CLEVR数据集生成多跳推理样本，迫使模型在每一步都用边界框锁定对象[32] 3. **迷宫导航**：生成46万条样本，训练模型用点坐标记录探索轨迹和回溯路径[34] 4. **路径追踪**：生成12.5万条样本，重点挑战曲线交叉时的歧义消解能力[36] - **后训练策略**：采用“先专家化，后统一”的四步法，包括分别训练边界框和点坐标专家模型、对专家模型进行精细奖励设计的强化学习、统一的强化微调以及在线策略蒸馏来弥合性能差距[38][39][40] 实验结果与性能表现 - **整体评测**：在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流前沿模型进行对比[42] - **计数任务**：在Pixmo-Count基准上以89.2%的精确匹配率超过Gemini-3-Flash的88.2%，大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%[44] - **空间推理任务**：在MIHBench上以85.3%的准确率排名第一，在SpatialMQA上以69.4%的准确率排名第一[44] - **拓扑推理任务（核心优势）**： - 在迷宫导航任务上达到66.9%的准确率，而GPT-5.4为50.6%，Gemini-3-Flash为49.4%，Claude Sonnet 4.6为48.9%，提升约17个百分点[44] - 在路径追踪任务上达到56.7%的准确率，对比GPT-5.4的46.5%和Gemini-3-Flash的41.4%，优势明显[44] 技术意义与行业影响 - 该研究为多模态AI的发展提供了新的思路，挑战了主流依赖更大模型、更高分辨率、更多数据的叙事，提出通过提升模型的精确指代和空间锚定能力来增强推理效果[57][58] - 技术引入了一种类似人类“用手指点着想”的思考姿势，为多模态推理增添了一种此前AI缺失的基础能力[58] 当前局限性与未来方向 - 模型需要明确的“触发词”来启用视觉原语机制，尚不能自主判断何时使用该机制[60] - 受输入分辨率限制，在极细粒度场景中，视觉原语的位置偶尔不够精准[60] - 用点坐标解决复杂拓扑推理问题的跨场景泛化能力仍有局限[60] - 团队认为与现有高分辨率感知方案结合是自然的下一步[60]

多模态大模型

视觉原语

指代鸿沟

Artificial Intelligence

Artificial Intelligence

DeepSeek多模态模型