核心观点 - 香港理工大学与腾讯ARC Lab的研究团队提出了首个统一的像素级多模态大模型UniPixel,该模型首次实现了像素级推理,能够在一个模型中完成目标指代、像素级分割与区域推理三大任务[1][2][4] - 该模型通过引入对象记忆机制和统一视觉编码方式,实现了对用户提示的“感知—记忆—推理”全过程支持,突破了传统LMM只能进行整体图像推理的局限[8][9] - 论文已被NeurIPS 2025接收,代码、数据和Demo全部开源[5] 技术架构创新 - UniPixel基于Qwen2.5-VL模型构建,支持图像与视频输入,具备对文本、点、框、掩码等多种提示的感知与处理能力[12] - 模型引入了三大关键模块:提示编码器(支持点、框、掩码三种视觉提示统一编码)、对象记忆体(用于存储用户指定目标并支持多轮引用)、掩码解码器(实现精确的时空掩码生成)[15][16][19] - 对语言模型词表进行了扩展,增加了[、与等特殊Token,在语言生成与像素感知之间建立了紧密连接[14] 对象记忆体机制 - 对象记忆体是一个可动态更新的哈希结构,用于在推理过程中存储与管理用户指定的目标区域[21] - 通过“记忆预填充”流程智能识别并生成对应的时空掩码,然后将其作为对象信息写入记忆体中[22] - 支持多轮对话中不断复用记忆对象,实现“上下文可控推理”,用户再次提及目标时只需使用之前定义的编号即可自动激活相应区域[23] 掩码引导推理 - 将掩码生成过程嵌入到语言模型推理流程中,实现了“语言引导分割,分割反哺理解”的双向闭环[26] - 模型在推理过程中生成 Token作为掩码触发标志,每个 Token会被输入到掩码解码器生成对应的目标掩码[26] - 这些掩码通过对原图片或视频进行池化,转化为LLM可识别的对象特征,用于回答更复杂的语义问题[27] 训练策略与数据 - 采用模块化、分阶段的训练策略,首先对视觉编码器和语言模型进行预训练,再逐步引入各组件进行联合训练[28] - 整个训练数据规模达到约100万条样本,支持从静态对象指代到时序掩码生成等多种任务类型[29] - 训练数据涵盖了Inst-IT-Image-Short-Caption(351K样本)、VideoRefer-Short-Caption(500K样本)等多个数据集[30] 性能评估结果 - 在10个公开基准测试集上进行了广泛实验,涵盖9大视觉-语言理解任务[31] - 在ReVOS推理分割基准上,UniPixel-3B达到62.1 J&F,超过所有现有模型[33] - 在MeViS数据集上,UniPixel-7B达到54.7 J&F;在Ref-YouTube-VOS数据集上达到72.1 J&F;在Ref-DAVIS17数据集上达到75.7 J&F[33] - 在RefCOCO数据集上,UniPixel-7B在testA集达到83.8 cIoU,在RefCOCO+ testA集达到81.0 cIoU,在RefCOCOg test(U)集达到78.4 cIoU[34] - 在PixelQA任务上,UniPixel-7B在点提示下达到71.5%准确率,超越72B参数的传统模型[40][41] 应用前景 - 该技术突破了传统方法中“提示-响应”一次性交互的局限,让模型具备了类似人类的“关注-记忆-归纳”能力[24] - 在医疗诊断、自动驾驶、人机交互等需要精确感知图中“具体区域”或“指定目标”的场景中具有重要应用价值[9] - 代表了多模态AI从“模态对齐”走向“细粒度理解”的重要里程碑,为未来能精准聚焦、灵活应对、自然交互的智能体发展奠定了基础[47][48]]