Workflow
视觉感知范式
icon
搜索文档
ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式
机器之心· 2026-03-03 17:08
核心观点 - 研究团队提出了一种名为FlowRVS的全新方法,用于指代视频分割任务,该方法摒弃了传统“先定位、后分割”的判别式范式,转而将分割任务重塑为在潜空间中、从视频特征到分割掩码的条件流匹配生成过程,这代表了一种视觉感知范式的代际转换[3] - 该方法的核心洞察是利用文本到视频生成模型所蕴含的、对物理规律的深刻理解,引导视频特征“自然生长”出目标分割掩码,实现了对复杂时空动态的极致理解,从而在多个基准测试中取得了最先进的性能[6][7] - 该方法在处理视频时展现出高度的确定性和稳定性,特别是在处理遮挡、长序列和超出训练分布的未知动作时,表现出强大的泛化能力,这得益于其捕捉的是视频运动的本质规律而非简单的模式记忆[22][23] 技术路径与范式创新 - **范式转换**:FlowRVS跳出了传统“冻结骨干提取特征+独立解码器预测”的桎梏,彻底释放了扩散变换器(DiT)的全参数生成能力,将分割任务定义为从视频流向掩码的条件流匹配过程[3] - **探索历程**:研究经历了从“一步映射”(J&F 38.9分)到“从噪声出发”(J&F 32.3分)的失败尝试,最终回归到预测“变化量”的残差思维(J&F 50.8分),并确立以视频为起点的“Video-to-Mask Flow”范式,实现了性能的最终突破(J&F 60.6分)[8][10][11] 关键技术创新:边界偏置采样 - **问题洞察**:指代视频分割是一个收敛过程,起点(t=0)的视频与文本交互对最终结果具有决定性影响,而传统流匹配的均匀时间采样未能给予起点足够的重视,导致资源错配[15][16] - **解决方案**:提出边界偏置采样策略,通过扭曲训练时间分布,对起点进行过采样,让模型在训练初期重点学习初始变形,这一改进使性能暴涨了10个点[17] 性能表现与优势 - **基准测试成绩**:在最考验动作理解的MeViS基准上取得51.1 J&F的SOTA成绩;在Ref-YouTube-VOS上取得69.6 J&F;在从未训练过的Ref-DAVIS17数据集上展现了强大的零样本能力,取得73.3 J&F的高分[21] - **模型效率**:基于WAN2.1 T2V 1.3B参数的模型,在与更大参数量模型的比较中毫不逊色[21] - **推理特性**:尽管使用流匹配训练,但在最终推理时发现“一步推理”效果优于多步求解,这符合判别任务终点唯一确定的物理必然,实现了用生成手段训练、获得极速推理的优势[18][19] 实际应用优势 - **抗干扰能力强**:在严重遮挡或非刚体形变下,分割掩码能稳定地吸附在物体表面,显示出模型理解了物体的“恒常性”,而非机械匹配像素[22] - **长序列处理稳定**:在长达81帧甚至200帧(25秒)的超长视频测试中,推理效率稳定,有效解决了长距离追踪中的“轨迹漂移”难题[23] - **泛化能力突出**:即使物体动作超出训练集分布(如“翻跟头的狗”),模型仍能凭借对物理运动轨迹的理解完成精准分割[23] 理论意义与行业前景 - **理论普适性**:FlowRVS的成功印证了流匹配理论的跨模态普适性,其数学本质是利用向量场构建两个概率分布之间的最优传输路径,打破了模态间的壁垒[26] - **预示未来方向**:该方法预示着视觉感知任务可能走向统一,未来或不再需要为检测、分割、生成等任务分别设计特异化架构,所有任务可能被统一在简洁的常微分方程框架中[26]