Workflow
像素空间推理
icon
搜索文档
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 17:27
视觉语言模型(VLM)技术突破 - 视觉语言模型正经历从「感知」到「认知」的关键跃迁,实现多模态交互的全新可能 [1][2] - 传统VLM依赖文本token间接翻译视觉信息,导致在高清图像微小物体、视频动态细节等场景中表现不足 [2] - 研究团队提出「像素空间推理」范式,将推理战场从文本空间拓展到像素空间,实现原生视觉操作 [2][3] 像素空间推理的核心优势 - 模型可自主触发视觉变焦、时空标记等原生操作,在像素矩阵上直接完成闭环推理,避免信息衰减 [6] - 视觉主导推理机制使模型能捕捉传统方法难以处理的空间关系与动态细节,如具身视觉导航、复杂视频理解等场景 [6] - 打破文本对视觉语义的「翻译牢笼」,实现与人类视觉认知同构的推理能力 [7] 学习陷阱与激励机制 - 指令微调模型面临「认知惰性」挑战,表现为负面反馈循环和路径依赖惯性 [8] - 研究团队设计内在好奇心激励配合外在正确性激励的强化学习方案,鼓励模型练习视觉操作 [9][10] - 通过像素推理率约束和操作效率约束,在探索与计算成本间找到平衡 [10][11] 性能表现与行业影响 - 基于Qwen2.5-VL-7B构建的Pixel-Reasoner在四大视觉推理基准测试中表现优异:V* Bench 84.3%准确率,超越GPT-4o和Gemini-2.5-Pro [13][15] - 在TallyQA-Complex、InfographicsVQA、MVBench等测试中均实现显著性能提升,展现「小模型大能力」特性 [19][20] - 像素空间推理为VLM开启「第二思维通道」,推动多模态模型真正理解世界复杂性 [21]