跨视角视觉理解
搜索文档
AI打通第一/第三人称视觉,跨视角视觉理解新SOTA|ICCV 2025 Highlight
量子位· 2025-10-18 17:30
技术突破与核心创新 - 联合提出ObjectRelator框架,使AI能精准匹配不同视角下的同一物体,实现跨视角的统一表征与理解[1] - 框架包含两大核心创新模块:多模态提示融合模块(MCFuse)首次将语言描述引入跨视角分割任务,以及跨视角对象对齐模块(XObjAlign)提出自监督对齐策略[16][18][20] - 在Ego转Exo和Exo转Ego两个任务上均显著超越所有基线模型,达到SOTA性能,代码已开源并被ICCV 2025接收为Highlight论文[1][5][22] 性能表现与实验结果 - 在Small TrainSet上,ObjectRelator相比微调后的PSALM模型,IoU指标在Ego→Exo和Exo→Ego任务上分别提升4.6%和5.1%[22] - 消融实验显示,单独引入MCFuse或XObjAlign模块均能带来显著性能提升,证明语义信息融合与跨视角一致性强化是两个互补的正确方向[24][25] - 在HANDAL-X数据集上的零样本测试中,使用Ego-Exo4D数据训练的模型IoU达到42.8,远超在COCO等传统数据集上训练的模型(如PSALM为14.2),显示出强大的泛化能力[26][27] 行业背景与技术挑战 - 第一人称视角与第三人称视角在机器人学习、VR交互等关键领域各有优劣,但实现跨视角的物体级视觉对应与语义关联是当前亟待解决的核心问题[7][8] - 现有高性能图像分割模型普遍受限于单一视角,难以驾驭跨视角分割问题,面临复杂的背景干扰和显著的视觉变换两大核心挑战[11][12][13][14]