让大模型学会“高维找茬”,中国联通新研究解决长文本图像检索痛点|AAAI 2026 Oral
量子位·2025-12-01 13:45

技术突破与核心创新 - 中国联通数据科学与人工智能研究院团队提出HiMo-CLIP模型,成功突破现有CLIP模型在处理长文本时性能下降的局限[2][3] - 模型核心创新在于建模"语义层级"与"语义单调性",使模型能自动捕捉当前语境下的语义差异点,无需改变编码器结构[2] - 该工作解决了视觉-语言对齐中长期被忽视的结构化问题,在长文本和组合性文本检索上达到SOTA水平,同时兼顾短文本性能[3][4] 现有技术痛点 - 现有CLIP等模型将文本视为扁平序列,忽略语言内在层级结构,导致文本描述越详细,其与图像的匹配度(对齐分数)反而可能下降[6] - 当文本从简短描述扩展为包含大量细节的长文本时,细节信息淹没核心语义,模型无法在复杂上下文中捕捉最具区分度的特征[6] - 如图1所示,多数SOTA模型在文本变长时对齐分数下降,而HiMo-CLIP(绿勾)分数稳步提升,例如HiMo-CLIP分数从0.242升至0.252,而CLIP从0.290降至0.219[9] HiMo-CLIP方法框架 - 框架包含两个核心组件:层级分解模块(HiDe)和单调性感知对比损失(MoLo)[10] - HiDe模块利用Batch内的PCA动态提取最具区分度的语义成分,自适应构建语义层级,无需人工干预[12][15] - MoLo损失函数强制模型同时对齐"全量文本"和"语义成分",其公式为MoLo=InfoNCE(f1, feat)+λ*InfoNCE(f2, feat),实现单调性约束[12][17] 性能优势与实验结果 - 在长文本检索任务中,HiMo-CLIP使用ViT-L/14骨干网络和仅1M训练数据,在Urban1k数据集上取得I2T/T2I 93.0/93.1的分数,优于使用400M数据的CLIP(68.7/52.8)和使用100M数据的LoTLIP等方法[20] - 在短文本检索任务中,HiMo-CLIP在Flickr30k数据集上取得I2T/T2I 92.5/78.2的分数,优于使用400M数据的CLIP(86.1/66.0)[21] - 在自建深度层级数据集HiMo-Docci上,HiMo-CLIP保持了极高的单调性相关系数0.88,远超对比方法,其对齐分数随文本描述完整度增加呈现完美上升趋势[22][25] 技术应用价值 - HiMo-CLIP具备高数据效率,仅使用1M训练数据就击败了使用100M甚至10B数据的方法,例如在长文本检索上优于使用10B数据的SigLIP[17][20] - 模型能动态提取机器认为的差异点,消除了人类语言和机器理解之间的隔阂,训练长文本的同时自动获得短文本匹配能力[19] - 该技术让多模态模型的对齐机制更符合人类认知逻辑,为未来更复杂的多模态理解任务指明方向[4]