自动驾驶VLM模型

搜索文档
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-07 00:05
自动驾驶中有"纯血vla"吗? Q1:每个数据集的相机数量不一样,这里是怎么处理的? 每个数据集的相机数量不同。VLM模型能够支持不同数量图像的输入,因此在Prompt中可以提供不同数量 的图像token输入,模型能够自动处理,无需明确指定相机数量。 Q2:vla中的action是怎么做的,直接用大模型输出文本形式的轨迹吗? 对于轨迹输出,我们直接通过模型以文本形式输出,并在Prompt中限制输出格式为XY坐标。数据中的QA 部分,包括轨迹预测,均基于当前车辆坐标系给出。 本文内容均出自『自动驾驶之心知识星球』 ,星球内部汇总了诸多关于端到端和VLA的学术界和工业界的 问题讨论、技术交流、大佬问答及岗位分享! 更多内容欢迎加入知识星球,和4000人一起同行~ Q3:输出轨迹是在图片上的坐标吗? 最后通过视频验证结果,输出的轨迹并非图像坐标,而是相对于当前车辆的坐标。例如,当前车辆坐标为 原点(0,0)(0,0)(0,0),预测结果为相对于该原点的(x,y)(x,y)(x,y)值。若需映射到图像,则需更多相 机内参数据。不同数据集提供的数据各异:如NuScenes数据集包含相机内参,而Motioniary等数据 ...