Workflow
模态冲突
icon
搜索文档
KAIST团队:基于双流扩散的世界模型增强VLA模型
具身智能之心· 2025-11-05 08:02
研究背景与核心问题 - 视觉-语言-动作模型是机器人通用策略学习的重要方向,但其关键缺陷是无法建模动作对环境的影响,缺乏对物理过程的显式理解[3] - 现有增强方案面临模态冲突的核心挑战,即强行统一处理动作和视觉两种特性迥异的模态会导致目标互相干扰[3][7] - 本工作提出双流扩散框架,核心目标是在保持模态特异性的同时实现跨模态知识共享,以解决联合预测的模态冲突问题[5] 相关工作梳理 - 视觉-语言-动作模型主要分为自回归生成和扩散生成两类动作生成方式,论文采用扩散生成方案,因其更易建模复杂动作分布[6] - 统一联合扩散架构用单一模型处理拼接后的动作和视觉模态,但强行统一低维动作和高维视觉会导致目标互相干扰[7] - 因果扩散架构用分离模型处理两种模态,但仅支持单向条件传递,无法实现双向知识迁移[7] - 现有模型多聚焦于模仿学习,忽略了动作如何影响未来状态的物理动态建模,这是双流扩散框架需补充的核心方向[8] 方法详解:双流扩散框架 - 框架通过架构设计、训练算法、采样策略三部分协同解决模态冲突,核心是解耦模态处理并保留跨模态交互[10] - 采用双流多模态扩散Transformer架构,动作流和视觉流保持独立传递,仅在跨模态注意力层临时合并以实现信息交换[15] - 采用解耦联合训练算法,核心是模态独立噪声调度,让动作和视觉按自身特性学习,同时捕捉双向因果关系[15] - 提出异步联合采样策略,推理时按模态需求分配去噪步数,视觉嵌入需更多步骤,动作则少量步骤即可收敛[16][18] 实验验证与分析 - 在模拟场景RoboCasa的24个任务中,100个演示数据下双流扩散框架平均成功率比GR00T-N1.5高18%,比FLARE高5%[20] - 在模拟场景GR-1的24个任务中,1000个演示数据下双流扩散框架在拾取放置和关节操作任务中的平均成功率达到0.420,优于基线的0.308[20][22] - 在真实场景Franka Research 3机械臂的4个任务中,双流扩散框架平均成功率为0.677,优于GR00T-N1.5的0.547和FLARE的0.557[24] - 通过无动作视频预训练,双流扩散框架平均成功率从0.501提升至0.585,证明其能利用低成本视频数据学习环境动态[26] - 消融实验显示,12层多模态扩散Transformer结合解耦噪声调度时性能最优,平均成功率达0.501[30] 结论与展望 - 双流扩散框架的核心创新点包括双流多模态扩散Transformer架构、解耦训练算法和异步联合采样策略[33] - 未来可探索结合更多无动作视频进行更大规模预训练,以提升模型对多样环境的适应能力[33] - 未来可融入触觉、力觉等模态,进一步增强机器人对环境的感知与动态建模能力[33]