DeepSeek连夜删掉的新论文，到底说了什么

文章核心观点 - DeepSeek发布了一篇关于多模态技术的新论文《Thinking with Visual Primitives》，提出了一种创新的视觉推理方法，但随后论文被撤下，可能因其透露了关键的技术思路[4][8][10] - 当前主流多模态大模型（如GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash）的视觉推理存在“引用鸿沟”，即模型能看清图像但无法在推理过程中精确指向图中元素，DeepSeek的解决方案是让模型在思考过程中直接输出坐标点或框作为“视觉原语”，模拟人类“边指边想”的认知过程[12][16][17][18][21] - 该方法通过将视觉信息高度压缩（最高达7056倍），将节省的算力用于“指”的推理过程，在多项视觉推理任务上取得了优于或可比肩主流模型的性能，特别是在需要空间和拓扑推理的任务上表现突出[22][23][25][52][54] 技术路径与创新 - 核心创新：视觉原语：DeepSeek让模型在思维链中直接输出点或框的坐标，作为推理过程中的“认知锚点”，这改变了传统模型将坐标仅作为最终答案输出的做法，使坐标成为思考的“草稿纸”[16][21] - 解决“引用鸿沟”：传统模型将视觉信息转化为文字后在语言空间推理，导致在描述密集或复杂场景时（如数25个人）容易丢失上下文，新方法通过坐标锚定每个推理步骤，有效解决了这一问题[17][18][34] - 高效视觉编码：基于DeepSeek-V4-Flash模型（284B参数，MoE架构，推理时激活13B参数），通过三级压缩将一张756x756的图像（57万像素）压缩至81个信息单元，压缩比达7056倍，从而腾出大量算力用于空间推理[22][23][25] 模型训练与数据构建 - 高质量数据构建：从近9.8万个数据源中，经过两轮严格筛选（剔除标签质量差、标注不完整或错误的样本），最终构建了超过4000万条高质量训练样本[27][28][29] - 分阶段训练策略：采用“先分头练，再合并”的后训练策略，先分别训练画框和标点的专家模型，再通过强化学习（使用多维打分系统）优化，最后将两种能力整合到一个统一模型中[31] - 训练数据侧重：优先专注于框（Bounding Box）数据的训练，因为框的标注答案更具唯一性，而点的标注则相对模糊；掌握画框能力后，标点被视为降维操作[29] 性能表现与基准测试 - 计数任务：在CountQA基准上，准确率（EM）达64.9%，与Gemini-3-Flash的66.1%接近；在Pixmo-Count上达89.2%，优于其他对比模型[52] - 空间与拓扑推理：在迷宫导航任务上准确率达66.9%，显著高于GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash等约50%的随机猜测水平；在路径追踪任务上准确率达56.7%，也领先于其他模型[52][54][55] - 综合视觉问答：在多个空间推理和通用VQA基准上表现稳健，例如在DS_Spatial_Reasoning上准确率高达98.7%[52] 应用案例与能力展示 - 复杂场景计数：能准确数出足球队合照中的25个人，并通过坐标框逐一锚定后进行统计[34] - 条件判断与多跳推理：能判断“地上的熊有几只”，对每只熊进行定位并单独判断其是否在地面；能进行多属性物体查找，如判断场景中是否存在“紫色橡胶物体”[37][40][41] - 迷宫导航与路径追踪：能像人类用铅笔探索一样，在迷宫中逐步标点搜索路径，并能处理“陷阱迷宫”；能追踪复杂缠结的线条路径[51][53] - 多模态融合与常识推理：能将视觉信息与世界知识结合，例如识别金门大桥并关联到金州勇士队；能理解图像中的幽默元素；能进行简单的物理空间推理指导[62][65][69] 当前局限与未来方向 - 分辨率与精度限制：视觉编码器的输出信息单元数量有限（81至384个），在处理非常精细的场景（如数交叉重叠的手指）时坐标精度不足，这可能是此前实测数手指错误的原因[71][72] - 模式激活依赖触发词：目前需要特定提示才能激活“视觉原语”推理模式，模型尚不能自主判断何时使用该能力[71] - 泛化能力有待提升：在复杂拓扑推理任务上，对未见过的空间结构类型泛化能力有限[71] - 发展方向：论文指出多模态推理的下一步进化在于“锚定机制”，通过优化引用和指向能力来提升推理效率，可能比单纯提升图像分辨率更有效[73][75]