视频理解
搜索文档
ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式
机器之心· 2026-03-03 17:08
核心观点 - 研究团队提出了一种名为FlowRVS的全新方法,用于指代视频分割任务,该方法摒弃了传统“先定位、后分割”的判别式范式,转而将分割任务重塑为在潜空间中、从视频特征到分割掩码的条件流匹配生成过程,这代表了一种视觉感知范式的代际转换[3] - 该方法的核心洞察是利用文本到视频生成模型所蕴含的、对物理规律的深刻理解,引导视频特征“自然生长”出目标分割掩码,实现了对复杂时空动态的极致理解,从而在多个基准测试中取得了最先进的性能[6][7] - 该方法在处理视频时展现出高度的确定性和稳定性,特别是在处理遮挡、长序列和超出训练分布的未知动作时,表现出强大的泛化能力,这得益于其捕捉的是视频运动的本质规律而非简单的模式记忆[22][23] 技术路径与范式创新 - **范式转换**:FlowRVS跳出了传统“冻结骨干提取特征+独立解码器预测”的桎梏,彻底释放了扩散变换器(DiT)的全参数生成能力,将分割任务定义为从视频流向掩码的条件流匹配过程[3] - **探索历程**:研究经历了从“一步映射”(J&F 38.9分)到“从噪声出发”(J&F 32.3分)的失败尝试,最终回归到预测“变化量”的残差思维(J&F 50.8分),并确立以视频为起点的“Video-to-Mask Flow”范式,实现了性能的最终突破(J&F 60.6分)[8][10][11] 关键技术创新:边界偏置采样 - **问题洞察**:指代视频分割是一个收敛过程,起点(t=0)的视频与文本交互对最终结果具有决定性影响,而传统流匹配的均匀时间采样未能给予起点足够的重视,导致资源错配[15][16] - **解决方案**:提出边界偏置采样策略,通过扭曲训练时间分布,对起点进行过采样,让模型在训练初期重点学习初始变形,这一改进使性能暴涨了10个点[17] 性能表现与优势 - **基准测试成绩**:在最考验动作理解的MeViS基准上取得51.1 J&F的SOTA成绩;在Ref-YouTube-VOS上取得69.6 J&F;在从未训练过的Ref-DAVIS17数据集上展现了强大的零样本能力,取得73.3 J&F的高分[21] - **模型效率**:基于WAN2.1 T2V 1.3B参数的模型,在与更大参数量模型的比较中毫不逊色[21] - **推理特性**:尽管使用流匹配训练,但在最终推理时发现“一步推理”效果优于多步求解,这符合判别任务终点唯一确定的物理必然,实现了用生成手段训练、获得极速推理的优势[18][19] 实际应用优势 - **抗干扰能力强**:在严重遮挡或非刚体形变下,分割掩码能稳定地吸附在物体表面,显示出模型理解了物体的“恒常性”,而非机械匹配像素[22] - **长序列处理稳定**:在长达81帧甚至200帧(25秒)的超长视频测试中,推理效率稳定,有效解决了长距离追踪中的“轨迹漂移”难题[23] - **泛化能力突出**:即使物体动作超出训练集分布(如“翻跟头的狗”),模型仍能凭借对物理运动轨迹的理解完成精准分割[23] 理论意义与行业前景 - **理论普适性**:FlowRVS的成功印证了流匹配理论的跨模态普适性,其数学本质是利用向量场构建两个概率分布之间的最优传输路径,打破了模态间的壁垒[26] - **预示未来方向**:该方法预示着视觉感知任务可能走向统一,未来或不再需要为检测、分割、生成等任务分别设计特异化架构,所有任务可能被统一在简洁的常微分方程框架中[26]
AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?
机器之心· 2025-12-06 09:15
文章核心观点 - 北京航空航天大学与东京大学联合团队提出名为TSS的新框架,通过引入“状态”作为视觉锚点,并采用渐进式“层级展开”预训练策略,有效解决了程序性视频理解中抽象文本指令与具象视频内容之间的语义鸿沟问题,该工作已被AAAI 2026接收[2][3][7] 现有方法的问题与挑战 - 现有程序性视频学习方法面临数据困境,依赖昂贵的时间密集型标注或利用WikiHow等外部知识库进行弱监督学习,将视频帧与“任务”或“步骤”文本描述强行对齐[2] - 弱监督方式存在优化空间,抽象语言描述与具体视觉像素之间存在断层,例如文本指令“切橙子”与视频中橙子从完整到果肉外露的连续形态变化不匹配,导致模型难以准确理解[2] - 传统“任务-步骤”二元结构过于抽象,视觉传感器捕捉到的是物体视觉状态的连续改变,与粗糙的步骤描述存在信息错位[5][7] TSS框架的核心创新 - 核心洞见在于重构过程性知识的层级结构,在“任务”和“步骤”之上引入了第三层语义——“状态”[3][7] - “状态”被定义为视觉可感知的物体属性具体变化,例如“切橙子”步骤可分解为“橙子完整”、“刀切入橙皮”、“橙子果肉外露变为切片”等状态快照,能够直接作为锚点将抽象步骤锁定在具体视频帧上[7][13] - 利用大语言模型基于现有WikiHow文本数据自动化生成“状态”描述,极大降低了数据成本,无需人工逐一标注[19] 渐进式“层级展开”训练策略 - 摒弃粗暴的“混合训练”,提出符合认知规律的渐进式训练策略,设计了一条Task → Step → State → Step → Task的U型学习路径[9][10] - 策略分为两个阶段:向下扎根,从高层任务出发学习到底层“状态”,迫使模型关注具体视觉证据;向上反哺,在掌握视觉细节后,带着“状态”知识回归高层,重新审视“步骤”和“任务”[11][14] - 实验证明,构建分析-综合闭环的路径(如Path-5: Task→Step→State→Step)性能最优,让模型学习“状态”可以反哺对“步骤”的理解[18][20] 实验验证与性能表现 - 在COIN和CrossTask数据集上进行了下游任务测试,包括任务识别、步骤识别和步骤预测[16] - 提出的方法在多项指标上全面超越基线模型,例如在COIN数据集上,使用下游MLP时,Path-5在任务识别、步骤识别、步骤预测的准确率分别达到83.78%、44.54%、38.07,显著优于未预训练的2.09%、1.37%、0.84以及基线模型Paprika的81.54%、42.39%、34.10[17][19] - 在CrossTask数据集上,Path-5的任务识别、步骤识别、步骤预测准确率分别为89.44%、57.92%、57.13,相较于Paprika模型,步骤识别和步骤预测分别提升1.71和1.36个百分点[17] - 对比实验表明,该方法提出的渐进式路径(如Path-5)性能优于混合训练,证明了TSS框架中的层级结构存在内在逻辑,通过渐进引导能更好地建立关联[21] 工程实现与技术应用 - 采用轻量化微调策略,训练轻量级Adapter模块作为预训练阶段的高效扩展组件,以提升模型表征能力[19] - 该方法为未来构建既能理解高层规划又能精准执行细节的智能系统提供了新思路,特别是在AI Agent需要执行复杂操作的背景下,通过显式建模物体状态变化来弥合自然语言与物理世界之间的鸿沟[23]
理想汽车MCAF重构辅助驾驶视觉认知新范式
理想TOP2· 2025-04-25 20:43
文章核心观点 - 理想汽车发布了一项名为MCAF(多模态粗到细注意力聚焦框架)的突破性技术,该框架旨在解决长视频理解的关键瓶颈,通过模仿人类“扫描-聚焦”的认知策略,高效过滤冗余信息并聚焦关键片段,从而显著提升自动驾驶系统处理海量视频数据的效率和准确性[3][4][6] 技术背景与行业痛点 - 视频理解,尤其是长视频(>5分钟)理解是多模态研究的热点,但面临巨大挑战:视频数据时空跨度大、语义复杂、冗余度高[13] - 传统或主流方法(如Video-MLLM)依赖全局数据压缩或均匀采样,导致关键细节丢失和冗余计算[4] - 在自动驾驶具体场景中,理想汽车的AD Max 3.0系统每天需处理超过29亿公里的驾驶数据,其中80%是视频流,传统方法存在三大痛点:1) 冗余信息过载(1小时视频含10万帧,仅0.3%与决策相关);2) 算力消耗爆炸(处理1小时视频需8.1EFLOPS算力,相当于10万台家用电脑);3) 紧急场景漏检(如高速弯道、加塞车辆等场景,系统接管率高达5%)[7][10] MCAF框架的核心创新与价值 - **多模态分层注意力聚焦**:通过多模态粗到细相关性感知(MCRS)模块,先快速过滤99.7%的冗余帧,再对关键片段进行毫秒级分析,增强了上下文信息与查询之间的相关性[8][9][10] - **扩张时间扩展机制**:对精选出的相关帧进行时间上的扩张,以扩大时间感受野,降低遗漏关键细节的风险[4][9] - **基于置信度的自我反思机制**:利用单一大型语言模型(LLM)完成生成-评估-调整闭环,通过模型响应的置信度作为反馈,迭代调整注意力聚焦,使系统能自适应地捕捉高相关性上下文[5][9][16] - **即插即用架构**:该框架兼容公司自研的Mind GPT-3o与BEV大模型,无需重新训练,简化了架构(代码实现仅需1个LLM接口),避免了多模型协同的兼容性问题,更适合实际部署[3][5][10][16] 性能表现与实验结果 - **在长视频数据集上优势显著**:在平均时长近60分钟的Video-MME数据集上,MCAF超越其他基于智能体的方法(如VideoTree、DrVideo)约3-5个百分点,响应准确率达57.1%[5][11][26] - **在特定数据集上实现领先**:在EgoSchema数据集上,MCAF比之前的领先方法性能提升5%(达到73.4%准确率)[11][22] - **在短视频任务上提升有限**:在NExT-QA(44秒视频)和IntentQA数据集上,性能分别仅提升0.2%和0.3%,表明其优势主要体现在长视频冗余信息过滤[5][11][24] - **消融实验验证核心模块重要性**:在EgoSchema数据集上的实验表明,移除自我反思机制、MCRS模块或DTE模块分别会导致准确率下降8.1、7.4和9.3个百分点[23] - **视觉编码器影响性能**:使用参数量为8B的EVA-CLIP-8B视觉编码器时,在EgoSchema上达到73.4%的最佳准确率[25]