Workflow
FlowVLA
icon
搜索文档
FlowVLA:破解 VLA 模型 “物理失真” 难题,机器人世界建模再升级
具身智能之心· 2025-08-29 08:03
核心观点 - FlowVLA模型通过视觉思维链(Visual CoT)原则解决传统VLA世界模型的根本缺陷,将动态运动与静态外观解耦,显著提升长时程预测的物理合理性和下游任务样本效率 [1][8][36] - 模型在单自回归Transformer中统一外观与运动推理,采用"帧→光流→帧"的两阶段结构化预测流程,避免像素复制陷阱并增强物理动态理解 [9][12][14] - 实验验证显示,FlowVLA在LIBERO和SimplerEnv基准测试中达到最先进性能,长时程任务成功率提升显著,低数据场景下样本效率优势达55% [20][22][30] 技术架构创新 - 引入视觉思维链(Visual CoT)原则,强制模型先预测中间光流编码运动动态,再基于光流生成未来帧,实现动态与外观学习的解耦 [8][12][14] - 采用共享分词方案,将2通道光流场转换为RGB类图像,通过相同VQ-GAN分词器处理光流与原始帧,保持参数效率和架构简洁性 [9][15] - 两阶段训练范式:预训练阶段从无动作视频学习通用物理规律,微调阶段适配机器人控制任务,损失函数仅针对动作令牌计算 [15][16][19] 性能表现 - LIBERO数据集平均成功率88.1%,超越所有对比模型,其中长时程任务成功率72.6%较基线提升显著 [20][21] - SimplerEnv数据集平均成功率74.0%,在视觉偏移场景(如堆叠积木任务62.5%)表现优异,验证对真实环境变化的强适应性 [22][23] - 低数据场景下峰值成功率比基线高55%,仅用1000训练步数即超越基线峰值性能,样本效率优势显著 [30][32] 关键组件验证 - 消融实验显示:移除Visual CoT结构使成功率下降至64.0%,移除光流监督降至69.5%,证明核心设计必要性 [33][34] - 定性分析表明FlowVLA预测结果符合物理规律(无机械臂消失或物体运动异常),且与语言指令语义对齐 [24][26][29] - 统一分词方案和交错序列格式贡献49.4%基础性能,分组序列结构对整体效果有关键影响 [33][34] 行业价值定位 - 突破传统VLA模型端到端学习局限,提供动态优先的世界模型构建范式,为通用机器人开发奠定物理推理基础 [35][36] - 解决预训练被动观测知识与策略学习主动控制知识的领域差距,显著降低下游任务微调成本和收敛时间 [7][10][30] - 光流预测提供任务无关的低层物理理解,可作为高层控制基础,弥补现有具身推理方法在物理动态建模方面的不足 [35][36]