视觉原语
搜索文档
DeepSeek发布多模态论文又连夜删除
第一财经· 2026-05-01 19:53
2026.05. 01 本文字数:1351,阅读时长大约2分钟 作者 | 第一财经 刘晓洁 DeepSeek终于能"看见"了。前两天,DeepSeek偷偷开启了多模态能力的灰度测试,部分用户打开 DeepSeek首页会发现,界面多了一个"识图模式"的入口。上传图片后,DeepSeek能像人一样理解 画面了。 DeepSeek多模态团队负责人陈小康在4月29日发文称,"现在,我们能看见你了。"这是DeepSeek 的聊天产品第一次接入多模态。 就在4月30日,DeepSeek又发布了一篇关于多模态技术报告《Thinking with Visaul Primitives》 (《用视觉原语思考》),阐释了这次上新的多模态技术背后的细节。 在五一节假日前一天发布重磅论文,"这很DeepSeek"。但很快大家发现,官方连夜删除了多模态仓 库和论文原文,5月1日打开Github界面已经是"404"状态。 关于删除原因官方并没有特别说明,不过有猜测不是内容问题,而是信息透露太多。 这次的论文说了些啥?从行业反馈来看,论文符合DeepSeek扎实且务实的风格,同样在通过工程能 力降低成本,采用了新的范式,也意味着,DeepS ...
DeepSeek连夜删掉的新论文,到底说了什么
虎嗅APP· 2026-05-01 17:09
本文来自微信公众号: APPSO ,作者:发现明日产品的,题图来自:AI生成 昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于多模态技术的新论 文《Thinking with Visual Primitives》,表示"Excited to release"。 以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 今天一早,推文删了,GitHub 上的论文也撤了。 但 APPSO 在它消失之前把全文读完了。读完之后觉得,这篇论文被撤可能不是因为内容有问题。 恰恰相反,它可能透露了太多了。 前天我们刚实测完 DeepSeek 的识图模式,让它数手指,它思考了一通,自己吐槽"我真的是数晕 了",然后答错了。当时以为是灰测阶段的小问题。 这篇论文告诉我们,数手指数晕这件事,背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶 颈。 而 DeepSeek 给出的解法,说出来几乎有点可笑的朴素:给 AI 装一根手指。 陈小康在那条推文里写道 ...
刚刚,DeepSeek多模态技术范式公布,以视觉原语思考
机器之心· 2026-04-30 18:58
文章核心观点 - DeepSeek联合北京大学、清华大学发布了一项开创性的多模态技术“Thinking with Visual Primitives”,旨在解决当前多模态大模型普遍存在的“指代鸿沟”问题,即模型能“看见”图像但无法在推理过程中精确“想清楚”和指代视觉对象[10][11] - 该技术的核心创新在于将空间坐标(如边界框和点)作为基本“思维单元”融入推理过程,使模型的逻辑链能锚定在图像物理坐标上,从而显著提升了在复杂计数、空间推理及拓扑推理等任务上的性能[7][20][22] - 在多项基准测试中,尤其是在主流前沿模型普遍表现欠佳的拓扑推理任务上,该模型实现了显著超越,例如在迷宫导航任务上达到66.9%的准确率,领先GPT-5.4约16个百分点,在路径追踪任务上达到56.7%,领先GPT-5.4约10个百分点[41][44] 技术背景与问题定义 - 当前多模态大模型面临“指代鸿沟”的根本瓶颈:模型使用自然语言进行思维链推理时,对视觉对象的描述(如“左边那个”)天生模糊,导致在密集或复杂场景中注意力“漂移”,最终得出错误结论[10][14] - 学术界此前主要致力于解决“感知鸿沟”,即通过高分辨率切割等技术让模型“看得更清”,但DeepSeek指出“看见”和“能说清楚在说哪个”是两件不同的事,精确的“指代能力”无法被更强的感知能力所替代[14][15] 模型架构与核心创新 - **架构基础**:以DeepSeek刚发布的V4-Flash模型为语言主干,这是一个总参数284B、推理时激活13B参数的混合专家模型,视觉编码部分采用自研的ViT,支持任意分辨率输入[16][17] - **核心创新一:视觉原语作为思维单元**:将边界框(`<|box|>`)和点坐标(`<|point|>`)作为推理的基本单位,像文字一样穿插在思维链中输出,使模型在提及视觉对象时能同步输出其精确坐标,从而将逻辑链锚定在图片物理坐标上,防止漂移[19][20][22] - **核心创新二:高效的视觉压缩**:通过ViT处理、3×3空间压缩及内置的压缩稀疏注意力机制,将一张756×756图片的视觉信息最终压缩至仅81个KV缓存条目,从原始像素到最终缓存条目的整体压缩比高达7056倍[24][25] - **效率对比**:处理一张800×800的图片,该模型仅需约90个KV缓存条目,而Claude Sonnet 4.6需要约870个,Gemini-3-Flash需要约1100个,表明精确的空间指代能力可在一定程度上弥补视觉token的不足[27] 训练数据与策略 - **冷启动数据构建**:从近10万个目标检测相关数据集中,经严格筛选保留约3.17万个高质量数据源,生成超过4000万条训练样本[29] - **专项任务设计**:针对“思考与视觉原语”设计了四类专项训练任务: 1. **计数任务**:分粗粒度与细粒度计数,训练模型“批量锁定”或“逐一扫描”的策略[30] 2. **空间推理与视觉问答**:利用GQA和CLEVR数据集生成多跳推理样本,迫使模型在每一步都用边界框锁定对象[32] 3. **迷宫导航**:生成46万条样本,训练模型用点坐标记录探索轨迹和回溯路径[34] 4. **路径追踪**:生成12.5万条样本,重点挑战曲线交叉时的歧义消解能力[36] - **后训练策略**:采用“先专家化,后统一”的四步法,包括分别训练边界框和点坐标专家模型、对专家模型进行精细奖励设计的强化学习、统一的强化微调以及在线策略蒸馏来弥合性能差距[38][39][40] 实验结果与性能表现 - **整体评测**:在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流前沿模型进行对比[42] - **计数任务**:在Pixmo-Count基准上以89.2%的精确匹配率超过Gemini-3-Flash的88.2%,大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%[44] - **空间推理任务**:在MIHBench上以85.3%的准确率排名第一,在SpatialMQA上以69.4%的准确率排名第一[44] - **拓扑推理任务(核心优势)**: - 在迷宫导航任务上达到66.9%的准确率,而GPT-5.4为50.6%,Gemini-3-Flash为49.4%,Claude Sonnet 4.6为48.9%,提升约17个百分点[44] - 在路径追踪任务上达到56.7%的准确率,对比GPT-5.4的46.5%和Gemini-3-Flash的41.4%,优势明显[44] 技术意义与行业影响 - 该研究为多模态AI的发展提供了新的思路,挑战了主流依赖更大模型、更高分辨率、更多数据的叙事,提出通过提升模型的精确指代和空间锚定能力来增强推理效果[57][58] - 技术引入了一种类似人类“用手指点着想”的思考姿势,为多模态推理增添了一种此前AI缺失的基础能力[58] 当前局限性与未来方向 - 模型需要明确的“触发词”来启用视觉原语机制,尚不能自主判断何时使用该机制[60] - 受输入分辨率限制,在极细粒度场景中,视觉原语的位置偶尔不够精准[60] - 用点坐标解决复杂拓扑推理问题的跨场景泛化能力仍有局限[60] - 团队认为与现有高分辨率感知方案结合是自然的下一步[60]