Workflow
生成式建模
icon
搜索文档
ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式
机器之心· 2026-03-03 17:08
核心观点 - 研究团队提出了一种名为FlowRVS的全新方法,用于指代视频分割任务,该方法摒弃了传统“先定位、后分割”的判别式范式,转而将分割任务重塑为在潜空间中、从视频特征到分割掩码的条件流匹配生成过程,这代表了一种视觉感知范式的代际转换[3] - 该方法的核心洞察是利用文本到视频生成模型所蕴含的、对物理规律的深刻理解,引导视频特征“自然生长”出目标分割掩码,实现了对复杂时空动态的极致理解,从而在多个基准测试中取得了最先进的性能[6][7] - 该方法在处理视频时展现出高度的确定性和稳定性,特别是在处理遮挡、长序列和超出训练分布的未知动作时,表现出强大的泛化能力,这得益于其捕捉的是视频运动的本质规律而非简单的模式记忆[22][23] 技术路径与范式创新 - **范式转换**:FlowRVS跳出了传统“冻结骨干提取特征+独立解码器预测”的桎梏,彻底释放了扩散变换器(DiT)的全参数生成能力,将分割任务定义为从视频流向掩码的条件流匹配过程[3] - **探索历程**:研究经历了从“一步映射”(J&F 38.9分)到“从噪声出发”(J&F 32.3分)的失败尝试,最终回归到预测“变化量”的残差思维(J&F 50.8分),并确立以视频为起点的“Video-to-Mask Flow”范式,实现了性能的最终突破(J&F 60.6分)[8][10][11] 关键技术创新:边界偏置采样 - **问题洞察**:指代视频分割是一个收敛过程,起点(t=0)的视频与文本交互对最终结果具有决定性影响,而传统流匹配的均匀时间采样未能给予起点足够的重视,导致资源错配[15][16] - **解决方案**:提出边界偏置采样策略,通过扭曲训练时间分布,对起点进行过采样,让模型在训练初期重点学习初始变形,这一改进使性能暴涨了10个点[17] 性能表现与优势 - **基准测试成绩**:在最考验动作理解的MeViS基准上取得51.1 J&F的SOTA成绩;在Ref-YouTube-VOS上取得69.6 J&F;在从未训练过的Ref-DAVIS17数据集上展现了强大的零样本能力,取得73.3 J&F的高分[21] - **模型效率**:基于WAN2.1 T2V 1.3B参数的模型,在与更大参数量模型的比较中毫不逊色[21] - **推理特性**:尽管使用流匹配训练,但在最终推理时发现“一步推理”效果优于多步求解,这符合判别任务终点唯一确定的物理必然,实现了用生成手段训练、获得极速推理的优势[18][19] 实际应用优势 - **抗干扰能力强**:在严重遮挡或非刚体形变下,分割掩码能稳定地吸附在物体表面,显示出模型理解了物体的“恒常性”,而非机械匹配像素[22] - **长序列处理稳定**:在长达81帧甚至200帧(25秒)的超长视频测试中,推理效率稳定,有效解决了长距离追踪中的“轨迹漂移”难题[23] - **泛化能力突出**:即使物体动作超出训练集分布(如“翻跟头的狗”),模型仍能凭借对物理运动轨迹的理解完成精准分割[23] 理论意义与行业前景 - **理论普适性**:FlowRVS的成功印证了流匹配理论的跨模态普适性,其数学本质是利用向量场构建两个概率分布之间的最优传输路径,打破了模态间的壁垒[26] - **预示未来方向**:该方法预示着视觉感知任务可能走向统一,未来或不再需要为检测、分割、生成等任务分别设计特异化架构,所有任务可能被统一在简洁的常微分方程框架中[26]
闭环碰撞率爆降50%!DistillDrive:异构多模态蒸馏端到端新方案
自动驾驶之心· 2025-08-12 07:33
端到端自动驾驶技术发展 - 端到端自动驾驶近年来发展迅速,对工业界和学术界均产生深远影响,但现有工作过度关注自车状态作为唯一学习目标,缺乏面向规划的理解能力 [2] - DistillDrive框架通过异构蒸馏显著降低自动驾驶碰撞率50%,闭环性能提升3个百分点 [2] - 与感知分离的规划模型相比,端到端模型直接从传感器输入学习到最终规划决策,减少级联误差但闭环表现较差 [3] DistillDrive技术创新 - 采用多模态解耦规划模型作为教师模型,通过知识蒸馏监督端到端模型的运动引导实例交互 [6] - 引入强化学习优化状态到决策的映射关系,利用生成式建模构建面向规划的实例 [6] - 主要贡献包括:多模态实例监督蒸馏架构、基于强化学习的状态优化、生成模型实现的分布级交互 [7] 技术实现细节 - 教师模型包含智能体编码器、场景编码器、规划解码器、预测头和状态优化模块 [20] - 学生模型采用稀疏场景表示和生成模型中的规划导向交互,通过KL散度监督分布 [25][27] - 知识蒸馏架构包含编码器实例蒸馏、解码器实例蒸馏和运动属性蒸馏三阶段 [30] 实验验证结果 - 在nuScenes数据集上碰撞率降低50%,L2误差减少10%,闭环性能提升3个百分点 [37] - NAVSIM数据集上PDMS指标比Transfuser高出2.5%,DAC和EP指标显著提升 [38] - 感知性能与SparseDrive相当,但在IDS等指标上有所提升 [39] 行业技术发展 - 端到端自动驾驶技术快速发展,UniAD利用注意力机制集成检测跟踪建图,VAD通过向量化表示平衡准确性与性能 [9] - 知识蒸馏在自动驾驶规划领域应用广泛,Roach、PlanKD和Hydra-MDP等采用不同蒸馏策略 [11] - 强化学习在CARLA等仿真环境中应用成熟,结合模仿学习可防止分布外值过度估计 [14][16] 未来发展方向 - 计划将世界模型与语言模型结合提升规划性能 [55] - 采用更有效的强化学习方法理解场景语义几何空间与决策规划空间关系 [55] - 行业正形成大模型、VLA、端到端、数据闭环等技术交流社区,涵盖30+技术方向 [58][60]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 14:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]