VideoOrion
搜索文档
视频大模型新基元:用Object Tokens重塑细节感知与指代理解
量子位· 2025-11-27 12:34
文章核心观点 - 北大和UCSD团队提出VideoOrion视频理解框架,通过将前景物体的时空动态显式编码为Object Tokens,并与Context Tokens并行输入大语言模型,解决了现有Video-LLM因下采样或特征聚合导致的细节丢失和语义纠缠问题[2][3] - 该方法在多个主流视频理解基准测试中性能全面领先,并自然演化出视频指代问答能力,为细粒度视频理解和需要锁定实例的任务提供了天然接口[4][6][17] 核心方法 - 采用双分支并行编码架构:Context Tokens承载背景/场景等泛化信息;Object Tokens通过检测-分割-跟踪流水线提炼对象随时间的演化特征,形成紧凑且语义解耦的Token[9][10] - 对象动态Token化使大语言模型能沿对象维度整合细节,提升细粒度问答能力,例如能清晰描述“红色三轮滑板车+拖地组件”的细节或“黑色泳装+跳板后空翻”的动作要素[6][7] - 针对视频中前景物体进出画面和场景突变,提出自适应切片策略以稳健检测与关联对象,避免均匀切段带来的跨段错配,最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪[14] 性能表现 - 在7B LLM设置下,VideoOrion在MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA上的准确率分别达到63.5%、65.1%、65.2%、54.6–55.3%、57.7%,相对同骨干网络的VideoLLaMA2/2.1等模型,相对涨幅分别为+10.1%、+14.6%、+15.6%、+8.7%、+7.8%[16][17] - VideoOrion+(使用SigLIP编码器和16帧)性能进一步提升,在上述基准上达到67.4%、65.0%、65.9%、58.9–61.5%、60.3%的准确率[17] - 得益于显式Object Token,模型在VideoRef45K指代理解基准上零样本即有效,经小规模微调后,多项指标(BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE)全面领先Artemis、Merlin等方法[17][18] 消融分析与技术洞察 - 消融实验证实对象分支的必要性:在等数据量下,去掉对象分支的基础模型在各基准上均落后;对象分支预训练整体更优[19][20] - Object Token数量存在适度原则:模型在最多64个Object Token时表现最稳定,过少信息不足,过多分散注意力[21] - 双分支结构优势明显:仅用Object Token会损失背景信息,仅用视频分支缺乏细节,双分支协同在保证全局线索的同时抓取关键对象信息[22][25] - 不同流水线组件组合均显著优于仅视频分支,验证了方法鲁棒性,最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪[14][23]