DeepSeek发布多模态论文又连夜删除
第一财经·2026-05-01 19:53

公司核心动态:DeepSeek发布多模态能力 - DeepSeek聊天产品首次接入多模态能力,开启灰度测试,用户界面新增“识图模式”入口,模型能够理解上传的图片[3] - 公司于4月30日发布技术报告《用视觉原语思考》,阐释多模态技术细节,但随后官方连夜删除了相关论文和仓库[6] - 此次多模态模型基于DeepSeek-V4-Flash(总参数2840亿)构建[10] 技术突破与核心观点 - 论文指出,现有模型在复杂任务上失败的原因主要在于“指不准”(引用鸿沟),而非“看不见”(感知鸿沟)[9] - 公司提出“视觉原语”框架作为解决方案,将点、边界框等空间标记作为最小思维单元,使模型能在推理时进行“指向”,将语言逻辑与具体空间坐标关联[10] - 该方法灵感源于人类认知,通过模拟“指向-推理”协同来降低认知负荷、维持逻辑一致性[10] - 大量实验表明,该方法在空间推理、视觉问答等挑战性任务上,性能持平或超越GPT、Claude、Gemini最新版本[10] - 研究证明,多模态智能的未来在于构建语言与视觉之间精准、无歧义的指代桥梁,而非单纯提升像素感知[10] 产品发展背景与行业地位 - 此前于4月24日发布的V4系列旗舰模型聚焦于支持百万字超长上下文,并在Agent能力、世界知识和推理性能上实现国内与开源领域领先,但未包含多模态[11] - 多模态已成为大模型更新的重要方向,而公司在此方面的迟延被视为其能力短板[11] - 有传言称,公司此前暂缓多模态训练策略主要源于算力和现金的掣肘,融资后该方向的训练或更顺利[11]

DeepSeek发布多模态论文又连夜删除 - Reportify