DeepSeek发布多模态论文又连夜删除

公司核心动态：DeepSeek发布多模态能力 - DeepSeek聊天产品首次接入多模态能力，开启灰度测试，用户界面新增“识图模式”入口，模型能够理解上传的图片[3] - 公司于4月30日发布技术报告《用视觉原语思考》，阐释多模态技术细节，但随后官方连夜删除了相关论文和仓库[6] - 此次多模态模型基于DeepSeek-V4-Flash（总参数2840亿）构建[10] 技术突破与核心观点 - 论文指出，现有模型在复杂任务上失败的原因主要在于“指不准”（引用鸿沟），而非“看不见”（感知鸿沟）[9] - 公司提出“视觉原语”框架作为解决方案，将点、边界框等空间标记作为最小思维单元，使模型能在推理时进行“指向”，将语言逻辑与具体空间坐标关联[10] - 该方法灵感源于人类认知，通过模拟“指向-推理”协同来降低认知负荷、维持逻辑一致性[10] - 大量实验表明，该方法在空间推理、视觉问答等挑战性任务上，性能持平或超越GPT、Claude、Gemini最新版本[10] - 研究证明，多模态智能的未来在于构建语言与视觉之间精准、无歧义的指代桥梁，而非单纯提升像素感知[10] 产品发展背景与行业地位 - 此前于4月24日发布的V4系列旗舰模型聚焦于支持百万字超长上下文，并在Agent能力、世界知识和推理性能上实现国内与开源领域领先，但未包含多模态[11] - 多模态已成为大模型更新的重要方向，而公司在此方面的迟延被视为其能力短板[11] - 有传言称，公司此前暂缓多模态训练策略主要源于算力和现金的掣肘，融资后该方向的训练或更顺利[11]