视觉感知范式 - 财报，业绩电话会，研报，新闻

视觉感知范式

搜索文档

ICLR 2026 | 当视频难以被表征：UCSD、HKUST等机构联合提出FlowRVS，用生成式流匹配重构视觉感知范式

机器之心· 2026-03-03 17:08

核心观点 - 研究团队提出了一种名为FlowRVS的全新方法，用于指代视频分割任务，该方法摒弃了传统“先定位、后分割”的判别式范式，转而将分割任务重塑为在潜空间中、从视频特征到分割掩码的条件流匹配生成过程，这代表了一种视觉感知范式的代际转换[3] - 该方法的核心洞察是利用文本到视频生成模型所蕴含的、对物理规律的深刻理解，引导视频特征“自然生长”出目标分割掩码，实现了对复杂时空动态的极致理解，从而在多个基准测试中取得了最先进的性能[6][7] - 该方法在处理视频时展现出高度的确定性和稳定性，特别是在处理遮挡、长序列和超出训练分布的未知动作时，表现出强大的泛化能力，这得益于其捕捉的是视频运动的本质规律而非简单的模式记忆[22][23] 技术路径与范式创新 - **范式转换**：FlowRVS跳出了传统“冻结骨干提取特征+独立解码器预测”的桎梏，彻底释放了扩散变换器（DiT）的全参数生成能力，将分割任务定义为从视频流向掩码的条件流匹配过程[3] - **探索历程**：研究经历了从“一步映射”（J&F 38.9分）到“从噪声出发”（J&F 32.3分）的失败尝试，最终回归到预测“变化量”的残差思维（J&F 50.8分），并确立以视频为起点的“Video-to-Mask Flow”范式，实现了性能的最终突破（J&F 60.6分）[8][10][11] 关键技术创新：边界偏置采样 - **问题洞察**：指代视频分割是一个收敛过程，起点（t=0）的视频与文本交互对最终结果具有决定性影响，而传统流匹配的均匀时间采样未能给予起点足够的重视，导致资源错配[15][16] - **解决方案**：提出边界偏置采样策略，通过扭曲训练时间分布，对起点进行过采样，让模型在训练初期重点学习初始变形，这一改进使性能暴涨了10个点[17] 性能表现与优势 - **基准测试成绩**：在最考验动作理解的MeViS基准上取得51.1 J&F的SOTA成绩；在Ref-YouTube-VOS上取得69.6 J&F；在从未训练过的Ref-DAVIS17数据集上展现了强大的零样本能力，取得73.3 J&F的高分[21] - **模型效率**：基于WAN2.1 T2V 1.3B参数的模型，在与更大参数量模型的比较中毫不逊色[21] - **推理特性**：尽管使用流匹配训练，但在最终推理时发现“一步推理”效果优于多步求解，这符合判别任务终点唯一确定的物理必然，实现了用生成手段训练、获得极速推理的优势[18][19] 实际应用优势 - **抗干扰能力强**：在严重遮挡或非刚体形变下，分割掩码能稳定地吸附在物体表面，显示出模型理解了物体的“恒常性”，而非机械匹配像素[22] - **长序列处理稳定**：在长达81帧甚至200帧（25秒）的超长视频测试中，推理效率稳定，有效解决了长距离追踪中的“轨迹漂移”难题[23] - **泛化能力突出**：即使物体动作超出训练集分布（如“翻跟头的狗”），模型仍能凭借对物理运动轨迹的理解完成精准分割[23] 理论意义与行业前景 - **理论普适性**：FlowRVS的成功印证了流匹配理论的跨模态普适性，其数学本质是利用向量场构建两个概率分布之间的最优传输路径，打破了模态间的壁垒[26] - **预示未来方向**：该方法预示着视觉感知任务可能走向统一，未来或不再需要为检测、分割、生成等任务分别设计特异化架构，所有任务可能被统一在简洁的常微分方程框架中[26]