《具身智能VLA算法与实战教程》

搜索文档
隐式端到端VLA有哪些方法?领域一般是怎么分类的?
具身智能之心· 2025-06-22 22:47
隐式端到端VLA模型概述 - 隐式端到端VLA模型不明确生成未来机械臂运动的图像,与显示、分层VLA方法不同 [1] - 核心模块包含视觉特征提取(V)、视觉语言联合特征学习(V+L)、视觉语言动作联合训练(V+L+A) [1] 视觉特征提取模块(V) - 常用模型包括ResNet-18作为基础选择 [6] - 预训练模型可选R3M、VC-1、Voltron、Theia [6] - 效率优先采用EfficientNet,文本对齐需求选用CLIP/SigLIP [6] 视觉语言联合特征学习(V+L) - 小模型方案采用FiLM或Perceiver结构 [3] - 大模型方案基于MLLM基座如Paligemma [3] 视觉语言动作联合训练(V+L+A) - 关键是通过视觉特征定位对动作有用的区域建立VL-A映射 [7] 模型分类维度 - 按规模分为大模型/小模型VLA [13] - 按架构分为Transformer-based/Diffusion-based [14]