视觉原语 - 财报，业绩电话会，研报，新闻

视觉原语

搜索文档

第一财经· 2026-05-01 19:53

2026.05. 01 本文字数：1351，阅读时长大约2分钟作者 | 第一财经刘晓洁 DeepSeek终于能"看见"了。前两天，DeepSeek偷偷开启了多模态能力的灰度测试，部分用户打开 DeepSeek首页会发现，界面多了一个"识图模式"的入口。上传图片后，DeepSeek能像人一样理解画面了。 DeepSeek多模态团队负责人陈小康在4月29日发文称，"现在，我们能看见你了。"这是DeepSeek 的聊天产品第一次接入多模态。就在4月30日，DeepSeek又发布了一篇关于多模态技术报告《Thinking with Visaul Primitives》（《用视觉原语思考》），阐释了这次上新的多模态技术背后的细节。在五一节假日前一天发布重磅论文，"这很DeepSeek"。但很快大家发现，官方连夜删除了多模态仓库和论文原文，5月1日打开Github界面已经是"404"状态。关于删除原因官方并没有特别说明，不过有猜测不是内容问题，而是信息透露太多。这次的论文说了些啥？从行业反馈来看，论文符合DeepSeek扎实且务实的风格，同样在通过工程能力降低成本，采用了新的范式，也意味着，DeepS ...

多模态智能

视觉原语

Artificial Intelligence

Artificial Intelligence

DeepSeek聊天产品

DeepSeek-V4-Flash

DeepSeek连夜删掉的新论文，到底说了什么

虎嗅APP· 2026-05-01 17:09

本文来自微信公众号： APPSO ，作者：发现明日产品的，题图来自：AI生成昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推，并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》，表示"Excited to release"。以下文章来源于APPSO ，作者发现明日产品的 APPSO . AI 第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 今天一早，推文删了，GitHub 上的论文也撤了。但 APPSO 在它消失之前把全文读完了。读完之后觉得，这篇论文被撤可能不是因为内容有问题。恰恰相反，它可能透露了太多了。前天我们刚实测完 DeepSeek 的识图模式，让它数手指，它思考了一通，自己吐槽"我真的是数晕了"，然后答错了。当时以为是灰测阶段的小问题。这篇论文告诉我们，数手指数晕这件事，背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶颈。而 DeepSeek 给出的解法，说出来几乎有点可笑的朴素：给 AI 装一根手指。陈小康在那条推文里写道 ...

Artificial Intelligence

Artificial Intelligence

刚刚，DeepSeek多模态技术范式公布，以视觉原语思考

机器之心· 2026-04-30 18:58

文章核心观点 - DeepSeek联合北京大学、清华大学发布了一项开创性的多模态技术“Thinking with Visual Primitives”，旨在解决当前多模态大模型普遍存在的“指代鸿沟”问题，即模型能“看见”图像但无法在推理过程中精确“想清楚”和指代视觉对象[10][11] - 该技术的核心创新在于将空间坐标（如边界框和点）作为基本“思维单元”融入推理过程，使模型的逻辑链能锚定在图像物理坐标上，从而显著提升了在复杂计数、空间推理及拓扑推理等任务上的性能[7][20][22] - 在多项基准测试中，尤其是在主流前沿模型普遍表现欠佳的拓扑推理任务上，该模型实现了显著超越，例如在迷宫导航任务上达到66.9%的准确率，领先GPT-5.4约16个百分点，在路径追踪任务上达到56.7%，领先GPT-5.4约10个百分点[41][44] 技术背景与问题定义 - 当前多模态大模型面临“指代鸿沟”的根本瓶颈：模型使用自然语言进行思维链推理时，对视觉对象的描述（如“左边那个”）天生模糊，导致在密集或复杂场景中注意力“漂移”，最终得出错误结论[10][14] - 学术界此前主要致力于解决“感知鸿沟”，即通过高分辨率切割等技术让模型“看得更清”，但DeepSeek指出“看见”和“能说清楚在说哪个”是两件不同的事，精确的“指代能力”无法被更强的感知能力所替代[14][15] 模型架构与核心创新 - **架构基础**：以DeepSeek刚发布的V4-Flash模型为语言主干，这是一个总参数284B、推理时激活13B参数的混合专家模型，视觉编码部分采用自研的ViT，支持任意分辨率输入[16][17] - **核心创新一：视觉原语作为思维单元**：将边界框（`<|box|>`）和点坐标（`<|point|>`）作为推理的基本单位，像文字一样穿插在思维链中输出，使模型在提及视觉对象时能同步输出其精确坐标，从而将逻辑链锚定在图片物理坐标上，防止漂移[19][20][22] - **核心创新二：高效的视觉压缩**：通过ViT处理、3×3空间压缩及内置的压缩稀疏注意力机制，将一张756×756图片的视觉信息最终压缩至仅81个KV缓存条目，从原始像素到最终缓存条目的整体压缩比高达7056倍[24][25] - **效率对比**：处理一张800×800的图片，该模型仅需约90个KV缓存条目，而Claude Sonnet 4.6需要约870个，Gemini-3-Flash需要约1100个，表明精确的空间指代能力可在一定程度上弥补视觉token的不足[27] 训练数据与策略 - **冷启动数据构建**：从近10万个目标检测相关数据集中，经严格筛选保留约3.17万个高质量数据源，生成超过4000万条训练样本[29] - **专项任务设计**：针对“思考与视觉原语”设计了四类专项训练任务： 1. **计数任务**：分粗粒度与细粒度计数，训练模型“批量锁定”或“逐一扫描”的策略[30] 2. **空间推理与视觉问答**：利用GQA和CLEVR数据集生成多跳推理样本，迫使模型在每一步都用边界框锁定对象[32] 3. **迷宫导航**：生成46万条样本，训练模型用点坐标记录探索轨迹和回溯路径[34] 4. **路径追踪**：生成12.5万条样本，重点挑战曲线交叉时的歧义消解能力[36] - **后训练策略**：采用“先专家化，后统一”的四步法，包括分别训练边界框和点坐标专家模型、对专家模型进行精细奖励设计的强化学习、统一的强化微调以及在线策略蒸馏来弥合性能差距[38][39][40] 实验结果与性能表现 - **整体评测**：在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流前沿模型进行对比[42] - **计数任务**：在Pixmo-Count基准上以89.2%的精确匹配率超过Gemini-3-Flash的88.2%，大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%[44] - **空间推理任务**：在MIHBench上以85.3%的准确率排名第一，在SpatialMQA上以69.4%的准确率排名第一[44] - **拓扑推理任务（核心优势）**： - 在迷宫导航任务上达到66.9%的准确率，而GPT-5.4为50.6%，Gemini-3-Flash为49.4%，Claude Sonnet 4.6为48.9%，提升约17个百分点[44] - 在路径追踪任务上达到56.7%的准确率，对比GPT-5.4的46.5%和Gemini-3-Flash的41.4%，优势明显[44] 技术意义与行业影响 - 该研究为多模态AI的发展提供了新的思路，挑战了主流依赖更大模型、更高分辨率、更多数据的叙事，提出通过提升模型的精确指代和空间锚定能力来增强推理效果[57][58] - 技术引入了一种类似人类“用手指点着想”的思考姿势，为多模态推理增添了一种此前AI缺失的基础能力[58] 当前局限性与未来方向 - 模型需要明确的“触发词”来启用视觉原语机制，尚不能自主判断何时使用该机制[60] - 受输入分辨率限制，在极细粒度场景中，视觉原语的位置偶尔不够精准[60] - 用点坐标解决复杂拓扑推理问题的跨场景泛化能力仍有局限[60] - 团队认为与现有高分辨率感知方案结合是自然的下一步[60]

多模态大模型

视觉原语

指代鸿沟

Artificial Intelligence

Artificial Intelligence

DeepSeek多模态模型