Workflow
ActDistill框架
icon
搜索文档
ActDistill:同济大学提出动作引导蒸馏框架,机器人推理速度提升1.67倍
具身智能之心· 2025-11-26 08:05
文章核心观点 - 提出一种名为ActDistill的新型高效蒸馏框架,旨在解决Vision-Language-Action模型在机器人等具身智能场景中因计算开销大、推理延迟高而难以实时部署的问题 [2][3] - 该框架的核心思路是以动作预测为导向,将大型教师模型的动作中心语义迁移到轻量化学生模型,实现效率与保真度的平衡 [4] - 实验验证表明,该框架能在计算量减少50%以上、推理速度提升最高1.67倍的同时,保持接近全量模型的任务成功率 [9][12][24] 研究背景与核心问题 - Vision-Language-Action模型在机器人操作、视觉导航等场景中表现出强大的多模态推理能力,但其庞大架构和频繁的跨模态交互导致计算开销大、推理延迟高,难以部署在实时或资源受限的系统中 [2] - 现有高效VLA策略多沿用视觉-语言模型的优化思路,优先压缩视觉-语言相关性,却忽略了动作预测的核心目标,容易造成关键信息损耗和动作语义不连贯两大问题 [2] 核心方法:ActDistill框架 - 框架包含两大核心模块:图结构封装和动作引导自衍生蒸馏 [4] - **图结构封装模块**通过动态关系图构建、消息传递与语义胶囊生成,显式建模动作语义的层级演化,分离任务相关交互与冗余背景信号 [6] - **动作引导自衍生蒸馏模块**通过自衍生学生模型与动态路由,在效率约束下复现教师的决策过程,训练时采用软门控联合优化,推理时通过阈值离散化以仅保留动作相关计算 [8] 实验验证 - **性能与效率平衡**:在LIBERO基准上,平均成功率为73.95%,仅比全量模型(74.95%)低1.0%,但计算量减少50.5%(FLOPs为49.5%),推理速度提升1.59倍 [9][12] - 在SIMPLER基准的视觉匹配场景中,平均成功率为74.08%,接近全量模型的74.75%,速度提升1.67倍,计算量仅为原模型的42.3% [10] - **消融实验**:图结构封装至关重要,将其中的GAT替换为MLP后,平均成功率从74.08%降至64.53%,抽屉操作任务性能暴跌25.4% [13] - **可视化分析**:适度跳过中间层可在保持73.9%成功率的同时将延迟降至28.3ms,且生成的机器人轨迹平滑,能有效规划无碰撞路径 [14][16] 关键结论与未来方向 - 该研究提出了首个以动作预测为导向的通用蒸馏框架,打破了视觉-语言模型的效率优化范式 [24] - 方法融合了图结构封装与动态路由,在自回归与扩散基VLA架构上均有效,计算量减少50%以上,速度提升最高1.67倍 [24] - 未来方向包括探索无教师或强化学习引导的变体,以及将长时序推理融入路由机制 [24]