Workflow
SemanticVLA
icon
搜索文档
SemanticVLA:面向高效机器人操作的语义对齐剪枝与增强方法
具身智能之心· 2025-11-15 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Wei Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、研究背景 视觉-语言-动作模型在机器人操作领域取得显著进展,通过预训练视觉语言模型实现从语言到动作的端到端映射,推动智能机器人的实际应用。但现有模型在动 态、杂乱环境中部署时仍受两大瓶颈制约: 这些问题导致模型计算效率低下、任务接地能力弱,限制了在实际机器人操作场景中的落地。 二、核心创新点 1. 提出语义引导双视觉剪枝器,通过指令感知的token过滤和几何感知的聚合,针对性解决视觉冗余问题,同时保留语义对齐。 三、主要工作 3.1 整体框架设计 输入包含实时视觉观测、机器人本体感受状态(如关节角度、末端执行器姿态)和自然语言指令,目标是预测未来K个动作序列。框架通过两条并行路径处理视 觉输入: 两条路径的输出通过语义互补分层融合器生成任务相关表示,与指令、本体感受状态及可学习的动作占位符拼接后,输入双向解码器并行生成所 ...