VLA技术架构 - VLA架构源于机器人和具身智能,是长期架构,技术潜力大,能支持城区自动驾驶[2] - 相比端到端架构,VLA增加语言理解能力(L),使模型具备深度思考能力,提升复杂场景处理能力[2] - VLA的泛化能力通过强化学习形成自主思维能力,无需依赖大量数据输入即可处理新场景[2] 硬件性能与部署 - Thor-U芯片支持FP4精度,算力达1400(FP8为700),推理帧率可从10Hz提升至20Hz[2] - 双Orin平台与Thor平台功能表现同步,模型部署无差别,未来交付帧率将优于当前[2] - 扩散模型采用流匹配技术,2-3步即可生成轨迹,时延低至15毫秒[3] 模型训练与迭代 - 3.2B MoE车端模型升级周期:基座模型每月更新,后训练根据问题实时调整[2] - 模型通过强化学习实现个性化驾驶风格,未来可在用户车上训练专属模型[12] - 行车、泊车、AEB模块已实现一体化训练[11] 产品体验与功能 - 当前版本调优偏稳妥,未来将提供多种驾驶风格适配不同用户需求[12] - 远程召唤功能已实现手机查看车辆周围影像[8] - 地库车速上限从10公里提升至15公里,未来将继续提高[5] 行业对比与差异化 - 理想技术路线与特斯拉均瞄准高级别自动驾驶,但更注重全场景能力积累和逐步迭代[11] - VLA架构支持个性化驾驶风格,形成与友商的产品差异化[12] - 公司参与国家L4法规建设,内部目标MPI年底达400-500公里,明年达千公里量级[12] 安全机制 - AEB功能作为安全兜底,帧率高,极端场景下直接使用感知结果[13] - 超级对齐确保VLA的思维链符合人类价值观,通过RLHF优化驾驶行为[4]
关于理想VLA司机大模型的22个QA