首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位·2025-06-09 17:27
视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。 然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景 中,常常因缺乏直接视觉操作能力而「视而不见」。 Pixel Reasoner 团队 投稿 量子位 | 公众号 QbitAI 来自滑铁卢大学、港科大、中科大的研究团队,首次将推理战场从文本空间拓展到像素空间,提出「像素空间推理」(Pixel-Space Reasoning)范式。 这项突破让VLM能像人类一样「眼脑并用」:通过原生视觉操作直接与视觉信息对话,在像素级精度上解锁视觉理解的新维度。 推理模式重构:从「文本中介」到「视觉原生」 传统VLM如同带着「文本滤镜」看世界:将图像翻译成文本token再推理,导致小字体、隐蔽物体等关键信息在转换中丢失。而 「像素空间推 理」赋予模型「视觉手术刀」般的能力 : 视觉主动操作 :模型可自主触发视觉变焦(放大关键区域)、时空标记(定 ...