文章核心观点 - DeepSeek发布了一篇关于多模态技术的新论文《Thinking with Visual Primitives》,提出了一种创新的视觉推理方法,但随后论文被撤下,可能因其透露了关键的技术思路[4][8][10] - 当前主流多模态大模型(如GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash)的视觉推理存在“引用鸿沟”,即模型能看清图像但无法在推理过程中精确指向图中元素,DeepSeek的解决方案是让模型在思考过程中直接输出坐标点或框作为“视觉原语”,模拟人类“边指边想”的认知过程[12][16][17][18][21] - 该方法通过将视觉信息高度压缩(最高达7056倍),将节省的算力用于“指”的推理过程,在多项视觉推理任务上取得了优于或可比肩主流模型的性能,特别是在需要空间和拓扑推理的任务上表现突出[22][23][25][52][54] 技术路径与创新 - 核心创新:视觉原语:DeepSeek让模型在思维链中直接输出点或框的坐标,作为推理过程中的“认知锚点”,这改变了传统模型将坐标仅作为最终答案输出的做法,使坐标成为思考的“草稿纸”[16][21] - 解决“引用鸿沟”:传统模型将视觉信息转化为文字后在语言空间推理,导致在描述密集或复杂场景时(如数25个人)容易丢失上下文,新方法通过坐标锚定每个推理步骤,有效解决了这一问题[17][18][34] - 高效视觉编码:基于DeepSeek-V4-Flash模型(284B参数,MoE架构,推理时激活13B参数),通过三级压缩将一张756x756的图像(57万像素)压缩至81个信息单元,压缩比达7056倍,从而腾出大量算力用于空间推理[22][23][25] 模型训练与数据构建 - 高质量数据构建:从近9.8万个数据源中,经过两轮严格筛选(剔除标签质量差、标注不完整或错误的样本),最终构建了超过4000万条高质量训练样本[27][28][29] - 分阶段训练策略:采用“先分头练,再合并”的后训练策略,先分别训练画框和标点的专家模型,再通过强化学习(使用多维打分系统)优化,最后将两种能力整合到一个统一模型中[31] - 训练数据侧重:优先专注于框(Bounding Box)数据的训练,因为框的标注答案更具唯一性,而点的标注则相对模糊;掌握画框能力后,标点被视为降维操作[29] 性能表现与基准测试 - 计数任务:在CountQA基准上,准确率(EM)达64.9%,与Gemini-3-Flash的66.1%接近;在Pixmo-Count上达89.2%,优于其他对比模型[52] - 空间与拓扑推理:在迷宫导航任务上准确率达66.9%,显著高于GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash等约50%的随机猜测水平;在路径追踪任务上准确率达56.7%,也领先于其他模型[52][54][55] - 综合视觉问答:在多个空间推理和通用VQA基准上表现稳健,例如在DS_Spatial_Reasoning上准确率高达98.7%[52] 应用案例与能力展示 - 复杂场景计数:能准确数出足球队合照中的25个人,并通过坐标框逐一锚定后进行统计[34] - 条件判断与多跳推理:能判断“地上的熊有几只”,对每只熊进行定位并单独判断其是否在地面;能进行多属性物体查找,如判断场景中是否存在“紫色橡胶物体”[37][40][41] - 迷宫导航与路径追踪:能像人类用铅笔探索一样,在迷宫中逐步标点搜索路径,并能处理“陷阱迷宫”;能追踪复杂缠结的线条路径[51][53] - 多模态融合与常识推理:能将视觉信息与世界知识结合,例如识别金门大桥并关联到金州勇士队;能理解图像中的幽默元素;能进行简单的物理空间推理指导[62][65][69] 当前局限与未来方向 - 分辨率与精度限制:视觉编码器的输出信息单元数量有限(81至384个),在处理非常精细的场景(如数交叉重叠的手指)时坐标精度不足,这可能是此前实测数手指错误的原因[71][72] - 模式激活依赖触发词:目前需要特定提示才能激活“视觉原语”推理模式,模型尚不能自主判断何时使用该能力[71] - 泛化能力有待提升:在复杂拓扑推理任务上,对未见过的空间结构类型泛化能力有限[71] - 发展方向:论文指出多模态推理的下一步进化在于“锚定机制”,通过优化引用和指向能力来提升推理效率,可能比单纯提升图像分辨率更有效[73][75]
DeepSeek连夜删掉的新论文,到底说了什么
虎嗅APP·2026-05-01 17:09