Workflow
模拟大脑功能分化!Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
具身智能之心·2025-07-13 17:48

研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但大规模视觉-语言模型(VLMs)因参数庞大和推理速度慢,限制了高频控制任务的实用性[9] - 现有双系统结构(系统1快速执行/系统2深度推理)存在协同效率低下问题,系统1无法充分利用系统2的语义推理结果[9] 技术方案创新 - FiS-VLA通过将VLM末端Transformer层重构为系统1执行模块,实现快慢系统一体化设计,系统2低频处理2D图像/语言指令,系统1高频响应实时感知输入[11] - 采用异构模态输入设计:系统2接收语言指令与2D图像,系统1接收2D图像/机器人状态/3D点云信息[15] - 双系统协作采用1:4频率比,系统2每运行一次可为系统1后续H步动作生成提供约束[14] 架构与训练 - 基于Prismatic VLM架构,包含SigLIP+DINOv2视觉编码器、LLaMA2-7B语言模型(最后n层Transformer用于系统1)、轻量级3D tokenizer[13] - 系统1采用扩散建模增强动作生成能力,系统2保留自回归推理能力,联合优化训练使用86万条轨迹数据[15][16] 性能表现 - 仿真测试:RLBench任务平均成功率69%,显著优于CogACT(61%)与π0(55%),控制频率达21.9Hz(CogACT的2倍)[18][19] - 真机测试:Agilex与AlphaBot平台平均成功率分别达68%与74%,在"倒水"等高精度任务中优势显著[20] - 泛化能力:面对未见物体/复杂背景/光照变化时,FiS-VLA准确率下降幅度(19%-31%)远小于π0(27%-46%)[23][24] - 消融实验:共享2层Transformer时性能最佳,单步预测8个动作理论控制频率达117.7Hz[25] 应用前景 - 通过统一VLM嵌入执行模块实现推理与控制融合,具备高频(117.7Hz)/高精度/强泛化特性[29] - 未来引入动态调整共享结构与协同频率策略可进一步提升自适应性与鲁棒性[29]