VLA司机模型

搜索文档
高质量解读理想 AI Talk第二季
理想TOP2· 2025-05-08 23:02
VLA司机模型架构分析 - 端云一体化产品是最终落地形态 车端采用4B参量的VLA模型 云端部署32B VL基座模型 通过COT方式实现复杂场景分析上云 车端完成Token输出后经扩散模型转换为控制指令 [1] - 车端算力限制决定模型参量 需平衡时延与性能 OrinX/Thor芯片算力有限 大模型无法本地高效运行 [1] - 原生预训练必要性凸显 第三方LLM蒸馏会引入驾驶无关知识 占用宝贵车端算力 降低能力上限 原生驾驶场景基座模型开发虽难但必要 [1][2] VLA技术优势 - 多模态信息首次实现全面对齐 实时视觉感知 语义信息 导航数据 驾驶员需求等均转化为Token输入 消除传统E2E+VLM双系统协同问题 [1][3] - 导航理解能力质变 可真实匹配路口场景与轨迹预期 超越简单播报指令理解 实现"看懂地图"而非"听地图" [2][4] - 3D场景表达突破 采用2D ViT与3D表征并行输入 解决3DGS难以处理文字信息的问题 提升构架透明度 [2] 模型迭代效率 - 数据利用率显著提升 VL基座模型版本迭代无需完全重新训练 32B模型蒸馏强化学习即可升级 相比E2E模型500W→800W clips需全量训练大幅优化 [2] - 参量规模优势明显 E2E模型1000W clips参量小于1B VLA司机模型达4B(3.2+0.8) 云端增强模型32B 支撑复杂场景推理与长时序处理 [2] 技术收敛趋势 - LLM作为核心主干网络 多头注意力机制实现超长上下文处理 但内存占用问题突出 需稀疏注意力优化 [3] - 算力瓶颈催生专用芯片需求 通用计算芯片(如OrinX)运行LLM效率低下 自研芯片可提升车端模型参量上限 [4] 传感器技术路线 - 激光雷达应用存分歧 点云数据刷新率低于视觉感知 但可提供真值矫正 企业需根据资源偏好选择纯视觉或融合方案 [5] - 图像数据语义信息更丰富 但点云仍具价值 技术路线选择非二元对立 [5]