像素级推理
搜索文档
多模态大模型首次实现像素级推理,3B参数超越72B传统模型,NeurIPS 2025收录
36氪· 2025-10-16 15:39
核心观点 - 香港理工大学与腾讯ARC Lab的研究团队提出首个统一的像素级多模态大模型UniPixel,该模型能在一个框架内完成目标指代、像素级分割与区域推理三大任务,实现了对用户提示的“感知—记忆—推理”全过程支持 [1][3][4] - 该模型通过引入对象记忆机制和统一视觉编码等创新设计,解决了传统多模态大模型难以进行精确目标识别和区域推理的痛点,在多项基准测试中性能超越现有模型 [4][8][20] 技术架构与创新 - UniPixel基于Qwen2.5-VL模型构建,支持图像与视频输入,并能处理文本、点、框、掩码等多种提示 [6] - 模型核心包含三大关键模块:提示编码器(统一编码三类视觉提示)、对象记忆体(动态存储用户指定目标)、掩码解码器(生成精确时空掩码) [8] - 通过扩展语言模型词表,增加`<REF>`、`<MEM>`、`<SEG>`等特殊Token,在语言生成与像素感知之间建立紧密连接 [9] - 对象记忆体机制允许模型在多轮对话中复用记忆对象,实现“上下文可控推理” [12][14] 性能表现 - 在ReVOS推理分割基准上,UniPixel-3B达到62.1 J&F,超过所有现有模型;7B版本达到64.0 J&F [20] - 在MeViS数据集上,UniPixel-7B的J&F达到54.7,显著优于对比模型 [20] - 在RefCOCO数据集上,UniPixel-7B在testA集达到83.8 cIoU,在RefCOCO+ testA集达到81.0 cIoU,表现最佳 [22] - 在VideoRefer-Bench区域理解任务上,UniPixel-7B在单帧和多帧评估中平均得分分别为3.47和3.48,优于GPT-4o等模型 [23] - 在新提出的PixelQA任务中,UniPixel-3B在点提示下的准确率达71.1%,超越Qwen2-VL 72B模型的69.3% [26] 训练与数据 - 采用模块化、分阶段的训练策略,逐步引入各组件进行联合训练 [16] - 训练数据规模约100万条样本,整合了涵盖文本、图像、视频及多种视觉提示类型的多个数据集 [17][18] 应用前景与影响 - 该技术有望应用于医疗诊断、自动驾驶、人机交互等需要精确区域感知和高可控性的场景 [4] - UniPixel代表了多模态AI从“模态对齐”走向“细粒度理解”的重要进展,为未来能精准聚焦、灵活交互的智能体形态提供了原型 [34]