Workflow
视觉-语言-动作(VLA)
icon
搜索文档
NeurIPS 2025 | 人类认知对齐的CogVLA,突破VLA效率与性能瓶颈
具身智能之心· 2025-09-19 13:43
文章核心观点 - 视觉-语言-动作模型面临效率困境与语义退化挑战,将高维多模态特征对齐至连续动作空间计算开销巨大[5] - CogVLA提出认知对齐的三阶段稀疏化框架,通过指令驱动路由与稀疏化模拟人类多模态协同机制,在提升效率同时保持高性能[7][8][12] - 该方案在仿真与真实环境实验中均取得领先的性能与效率,成功率高达97.4%,推理速度快2.79倍,训练成本降低2.49倍[18][20] 行业背景与挑战 - 视觉-语言-动作研究在强大预训练VLM推动下快速发展,但高维特征对齐至连续动作空间计算开销巨大,限制大规模部署[5] - 现有VLA效率优化策略主要聚焦大语言模型内部计算优化,忽视视觉、语言与动作间语义耦合,导致感知冗余、指令-语义脱节和动作不连贯问题[6][10] 技术方案与架构 - CogVLA借鉴人类多模态协调机制,采用三阶段渐进式设计:EFA-Routing实现指令驱动视觉聚合,压缩冗余信息[16] - LFP-Routing在语言模型中进行语义感知剪枝,过滤与动作无关的视觉token[16] - CAtten通过跨模态耦合注意力保证语义一致性和动作连贯性,支持并行解码[16] 性能与效率成果 - CogVLA在LIBERO上取得平均97.4%最高成功率,实现8倍视觉压缩倍率[18] - 与OpenVLA相比,推理时间快2.79倍,吞吐量高22.54倍,FLOPs低3.12倍,训练成本降低2.49倍[20] - 在真实环境任务中取得最优子任务成功率和综合成功率,任务完成率高达70%,显著优于其他先进模型[19] 技术优势与创新 - 通过指令驱动路由机制精准聚焦任务相关区域,即使在混乱或模糊场景中也能实现强大视觉基础[21] - CAtten注意力机制结合单向与双向注意力,注入动作意图,充分利用稀疏视觉token,增强逻辑一致性与动作连贯性[14][15]
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
量子位· 2025-06-25 13:00
核心观点 - LeVERB框架首次打通视觉语义理解与物理运动之间的断层,实现人形机器人通过感知新环境和理解语言指令直接完成全身动作 [3][15] - 该框架基于模拟数据训练实现零样本部署,在宇树G1机器人测试中简单视觉导航任务零样本成功率达80%,整体任务成功率58.5%,比传统方案强7.8倍 [1][10][36] - 采用分层双系统设计,高层专注任务理解(10Hz),底层专注动作执行(50Hz),通过潜在动作词汇实现高效协同 [17][18][23][24] 技术架构 系统设计 - 高层LeVERB-VL:102.6M参数的视觉语言主干,将指令和视觉转换为潜在动词,包含VLA先验模块、运动学编码器等组件 [23] - 底层LeVERB-A:1.1M参数的全身动作专家,通过强化学习将潜在指令解码为动力学级动作,采用Transformer架构输出关节位置指令 [23][24] - 潜在动作词汇作为接口实现两层协同,训练时通过轨迹重建、分布对齐等优化模型 [15][16][18] 性能优势 - 解决传统VLA模型只能处理准静态任务的问题,支持高频控制(50Hz)与低频规划(10Hz)结合 [12][14] - 消除人工预设动作库依赖,直接根据环境语义生成动作,如"坐下"动作通过相机感知+语言指令完成 [3][4] 基准测试 LeVERB-Bench - 首个面向人形机器人全身控制的仿真到真实基准,包含10类154个视觉语言任务和460个仅语言任务 [6][7][30] - 采用IsaacSim光线追踪渲染,程序化生成17.1小时运动轨迹和2.7小时仅语言数据,覆盖500条不同轨迹 [26][27][31] - 在20个随机环境中评估,场景纹理和物体属性完全随机化以检验泛化能力 [33] 测试结果 - 视觉导航任务:简单场景成功率80%,中级场景75%,困难场景50% [36][37] - 仅语言任务(坐/站/移动)成功率高达97% [37] - 消融实验显示判别器和运动学编码器对性能有关键影响,移除后性能显著下降 [38] 应用验证 - 成功部署于宇树G1机器人,完成"走向椅子坐下"等真实场景任务 [34] - 验证仿真到真实的迁移能力,最高实现7.8倍性能提升 [10][36] 团队背景 - 半数成员为UC伯克利、卡内基梅隆大学的华人学者 [39] - 负责人薛浩儒曾领导价值数百万美元的AI Racing Tech自动驾驶赛车项目,最高时速160英里 [43][44] - 另一位负责人廖启源在波士顿动力公司实习,研究方向为机器驱动与学习控制结合 [47][48][49]