最近做 VLA 的一些心得体会
自动驾驶之心·2025-12-11 08:05

作者 | Keyki 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1981825800887103493 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 1. VLM 做 AD 的头部问题: Open Discussion (1)幻觉问题,具体表现为无中生有、视而不见; (2)3D 空间理解能力不足; (3)速度慢。 幻觉问题的原因:静态感知 。解决方案:动态感知,例如通过多次校验减少训练数据中的幻觉;例如通过 DPO 减少训练模型时产生的幻觉。例如允许模型"回头 放大看看"。 3D 空间理解能力不足的原因:预训练任务多为 2D 的。解决方案: 训练时加入空间定位任务 ,例如有工作证明在 AD 中混合具身的数据对于 AD 是有帮助的。 DriveVLM 证明,虽然 VLM 可以通过高质量多层次的场景感知和理解做出决策,但额外使用 3D 感知和 PnC 轨迹生成模块后效果更好。 速度慢:KV Cache; Visual ...