OccVLA

搜索文档
VLA空间理解的能力还远未被挖掘!OccVLA的新尝试(上海期智&清华&上交等)
自动驾驶之心· 2025-09-16 07:33
核心观点 - 多模态大语言模型在自动驾驶领域缺乏鲁棒的3D空间理解能力,主要受限于3D表示构建难度和细粒度空间细节丢失问题 [3][5] - OccVLA框架通过将3D占用率表示整合为预测输出和监督信号,使模型直接从2D视觉输入学习细粒度空间结构,无需额外计算开销 [3][9] - 该模型在nuScenes基准的轨迹规划任务中取得SOTA结果(平均L2距离0.28米),在3D视觉问答任务中准确率达59.5%,为自动驾驶提供可扩展的纯视觉解决方案 [3][38][42] 技术框架创新 - 采用隐式3D占用监督机制,将占用率令牌作为隐式推理过程,通过交叉注意力从VLM中间层接收视觉特征 [9][21] - 设计潜在空间占用率预测(下采样率r=16)解决原始占用网格内存占用高问题,使用VQ-VAE解码器还原高分辨率3D占用预测 [23] - 引入元动作预测机制(速度动作3类+方向动作6类),通过思维链监督实现自然语言推理与运动语义保留 [26][30] - 规划头采用轻量级MLP架构,输入元动作嵌入/速度/视觉token,输出未来3秒轨迹坐标(MSE损失监督) [29][33] 性能表现 - 运动规划任务平均L2距离0.28米,超越依赖激光雷达的OmniDrive(0.33米)和需要3D标注的EMMA(0.32米) [38] - 3D视觉问答任务整体准确率59.5%,超越7B参数的LLaVA(47.4%)和LiDAR-LLM(48.6%),接近8B参数OccLLaMA3.1(54.5%) [42] - 占用预测任务mIoU达10%,虽受限单帧输入但在关键元素(车道/车辆/行人)预测表现突出 [43] - 模型参数量仅3B,性能超越7B参数模型,显示更高计算效率 [38][42] 训练方法论 - 三阶段训练流程:自动驾驶场景预训练(使用OmniDrive数据)、占用率-语言联合训练(损失函数含λ因子平衡文本与占用任务)、规划头专项训练 [31][32][33] - 采用适配器微调Transformer块,保持原有VLM能力同时注入3D感知能力 [22][32] - 全自动数据构建流程生成元动作标签,20%数据经人工优化确保标注一致性 [27] 行业应用价值 - 突破2D感知与3D感知间差距,使纯视觉方案具备高精度3D理解能力(仅需相机输入) [4][10] - 支持占用率表示灵活解码,生成可解释且可定量评估的输出,增强自动驾驶系统透明度 [10][11] - 推理阶段可跳过占用预测,无额外计算开销,解决现有3D VLM因参数庞大导致的延迟问题 [3][48]