模态鸿沟

搜索文档
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
机器之心· 2025-05-25 11:51
例如,模型虽然能够识别图像中的物体并描述它们之间一些相对简单的空间关系,但在追求极致的定位精度,或需要深入理解和预测物体间高度复杂、动态或隐 含的交互逻辑(而非仅仅识别表面现象)时,其表现仍可能因视觉信息在文本化过程中的细节损失而受到限制。 机器之心报道 编辑:Panda、+0 近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理 视觉信息时也是如此 。 常见的 MLLM 结构。 这种模式要求模型首先将视觉信息「翻译」或「映射」为文本描述或内部的文本化 token,然后再利用大型语言模型的文本推理能力进行处理。 这个转换过程不可避免地可能导致视觉信息中固有的丰富细节、空间关系和动态特征的丢失或削弱,形成了所谓的「模态鸿沟 (modality gap) 」。这种鸿沟不仅限 制了模型对视觉世界的精细感知,也影响了其在复杂视觉场景中进行有效规划的能力。 来自剑桥、伦敦大学学院、谷歌的研究团队认为: 语言不一定始终是进行推理最自然或最有效的模态,尤其是在涉及空间与几何信息的任务场景中 。 基于此动因,研究团队提出了一种 ...