Workflow
PaDT
icon
搜索文档
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出
机器之心· 2025-10-16 08:51
技术瓶颈与创新范式 - 当前多模态大语言模型在需要精细空间感知的任务上存在瓶颈,其根本原因在于依赖将视觉目标输出为文本坐标的方式,导致格式混乱、解析困难、语义丢失和图文脱节等问题[2][8] - 研究团队提出全新统一范式Patch-as-Decodable Token,核心思想是将图像划分为视觉小块,使模型能直接生成对应这些小块的视觉令牌,实现文本令牌与视觉令牌在输入输出端的无缝交替[3][4][5] - 这一设计使模型不再猜测坐标,而能在生成句子中直接指向图像目标,从而在检测、分割等任务上全面刷新SOTA[6][7] 核心技术机制 - PaDT引入视觉参考令牌,这些令牌直接来源于输入图像的视觉块嵌入,在每次前向传播中动态地将当前图像的块特征扩展进文本词表,形成图文一体的动态嵌入表[11][13] - 设计了一个轻量级PaDT解码器,仅由三个双向注意力块组成,接收大语言模型输出的VRT隐藏状态,通过注入任务特定的可学习令牌,统一解码出边界框、分割掩码和置信度分数[16][19] - 提出鲁棒训练策略,在每次训练时随机采样少量前景VRTs作为监督信号,并通过掩码交叉熵损失动态屏蔽未选中的VRT logits,提升模型泛化能力并降低推理时的令牌消耗[16][17] 性能表现与行业影响 - PaDT Pro以仅3B参数在RefCOCO/+/g的指代表达理解任务上取得93.6的平均准确率,超越了参数量高达78B的InternVL3[21][22] - 在COCO开放词汇检测任务上,PaDT Pro将mAP推高至38.2,几乎是传统方法的两倍,7B版本更达到39.0 mAP,展现出极强的可扩展性[21][24] - 在新构建的Referring Image Captioning数据集上,PaDT的CIDEr-D分数从基线0.386提升至1.450,GreedyPrecision达82.3%,证明其生成的描述具备极强的视觉 grounding 能力[24][33] 技术优势与行业意义 - PaDT的成功源于对多模态大语言模型视觉能力瓶颈的深刻洞察,将视觉块本身作为可生成的令牌,实现了模态间的原生对齐,避免了在文本空间内拟合视觉信息的缺陷[32] - 动态嵌入机制确保VRTs与当前图像的强绑定,统一的令牌空间让大语言模型能以相同方式处理语言和视觉信息,轻量解码器将复杂预测任务从大语言模型中解耦[32] - PaDT Pro模型通过联合训练多个任务,仅通过切换提示即可无缝切换任务,且性能普遍优于单任务模型,证明了该范式在多任务泛化方面的强大能力[33][35]