CogVLA
搜索文档
NeurIPS 2025 | 人类认知对齐的CogVLA,突破VLA效率与性能瓶颈
具身智能之心· 2025-09-19 13:43
文章核心观点 - 视觉-语言-动作模型面临效率困境与语义退化挑战,将高维多模态特征对齐至连续动作空间计算开销巨大[5] - CogVLA提出认知对齐的三阶段稀疏化框架,通过指令驱动路由与稀疏化模拟人类多模态协同机制,在提升效率同时保持高性能[7][8][12] - 该方案在仿真与真实环境实验中均取得领先的性能与效率,成功率高达97.4%,推理速度快2.79倍,训练成本降低2.49倍[18][20] 行业背景与挑战 - 视觉-语言-动作研究在强大预训练VLM推动下快速发展,但高维特征对齐至连续动作空间计算开销巨大,限制大规模部署[5] - 现有VLA效率优化策略主要聚焦大语言模型内部计算优化,忽视视觉、语言与动作间语义耦合,导致感知冗余、指令-语义脱节和动作不连贯问题[6][10] 技术方案与架构 - CogVLA借鉴人类多模态协调机制,采用三阶段渐进式设计:EFA-Routing实现指令驱动视觉聚合,压缩冗余信息[16] - LFP-Routing在语言模型中进行语义感知剪枝,过滤与动作无关的视觉token[16] - CAtten通过跨模态耦合注意力保证语义一致性和动作连贯性,支持并行解码[16] 性能与效率成果 - CogVLA在LIBERO上取得平均97.4%最高成功率,实现8倍视觉压缩倍率[18] - 与OpenVLA相比,推理时间快2.79倍,吞吐量高22.54倍,FLOPs低3.12倍,训练成本降低2.49倍[20] - 在真实环境任务中取得最优子任务成功率和综合成功率,任务完成率高达70%,显著优于其他先进模型[19] 技术优势与创新 - 通过指令驱动路由机制精准聚焦任务相关区域,即使在混乱或模糊场景中也能实现强大视觉基础[21] - CAtten注意力机制结合单向与双向注意力,注入动作意图,充分利用稀疏视觉token,增强逻辑一致性与动作连贯性[14][15]