Workflow
视觉语言行动(VLA)模型
icon
搜索文档
国内外车企智驾方案对比
2025-06-23 10:09
纪要涉及的行业和公司 - **行业**:智能驾驶行业、新能源汽车行业 - **公司**:特斯拉、华为、Momenta、小鹏汽车、理想汽车、比亚迪 纪要提到的核心观点和论据 技术路径对比 - 华为、小鹏、理想和 Momenta 处于第一梯队,能较快跟上特斯拉技术步伐,如 2022 年 10 月特斯拉推出 occupancy 技术,华为、理想和小鹏一年内跟上;2024 年 1 月特斯拉推出端到端智能驾驶系统模型,小鹏和华为半年内跟上[2] - 2025 年车企普遍希望实现类 L3 级别智能驾驶,如理想计划实现有监督智能驾驶,达城市与高速每 500 公里接管一次水平;小鹏希望年底实现类 L3 级别智能驾驶,城区每百公里接管次数小于一次;华为计划推出类似 L3 级别自动驾驶[2] - 主要厂商端到端模型参数量大多在几亿规模,下一代车端 VLA 模型参数量预计在 100 亿以内[2] - 特斯拉在北美实现完全一体式端到端,国内采用模块化方案适应交通规则[1][2][4] 具体技术方案特点 - 特斯拉:完全一体式纯视觉自动驾驶,依靠 8 个摄像头完成智能辅助驾驶,领先世界生成技术,模拟多视角镜头并主动标注语义信息[1][4][11] - 华为:伴随 ADS 4.0 推送一体式多传感器融合方案,比特斯拉复杂,基于盘古大语言模组开发世界生成技术,虚拟数据占比 30%,合成数据占总数据比重 50%[1][3][4][11] - 理想汽车:结合 VLA 与 22 亿参数量 ARM 进行场景理解及复杂情况处理,座舱设计能力强,通过中间屏幕展示虚拟模型对复杂场景理解及轨迹规划概率,预计下个月 I8 首次将 VELA 模型上车,世界生成技术中虚拟数据占比 15% - 30%,合成数据占比 20% - 40%[3][4][6][11][13] - 小鹏汽车:计划通过 G7 发布会走 VLA 加 VLM 路线,目前采用多传感器融合方式,通过改进阿里千问大语言模型进行预训练和后训练,世界生成技术中虚拟数据占比 20% - 40%,合成数据占比 20% - 40%[3][5][6][11] - 比亚迪:高级自动驾驶分天神之眼 ABC,自研天神之眼 C 跑高速 NOA,与 Mobileye 合作开发其他部分[5] 模型选择及区别 - 理想端到端加 VLN 模型使用两片 NOVONIX 芯片,VRM 模型推理速度慢,加入 VLA 模型后,下一代车载算力提升可支持其发展[6] - 理想在预训练阶段训练云端 VR 基础模型后蒸馏出 MOE 模型,小鹏通过改进阿里千问大语言模型进行预训练和后训练,理想方法利于快速部署 VLA 模型,小鹏方法难度大但潜在上限可能更高[6] 自动驾驶地图策略 - 多数企业放弃高清地图,采购介于高清地图和传统导航地图之间精度的地图[1][7] 传感器融合策略 - 特斯拉采用纯视觉路线,新版 Model Y 可能加入 4D 毫米波雷达;其他车企如小鹏采用多传感器融合路线,使用半固态激光雷达,长期震动致精度下降需算法补偿,华为表现较好[1][8] 激光雷达与摄像头方案优劣 - 激光雷达在高速场景有优势,但远距离点云密度不足判断物体类型;摄像头方案在低照度成像情景下表现优异,通过 LOFIC 技术和高分辨率摄像头,夜晚可看到 100 米外场景,提高 30% - 40%上限[9] 自研芯片降低成本 - 小鹏将在 2025 年 G7 顶配车型加入三颗 750TOPS 图灵芯片,总算力相当于三颗英伟达 Orin 芯片,每颗成本约 3,000 元,可减少 60% - 70%毛利率支付给英伟达[10] - 特斯拉目前算力 500 - 720TOPS,下一代升至 2000 多 TOPS,自研芯片成本可控[2][10] 理想汽车 2025 年市场竞争情况 - 面临增程车市场份额竞争加剧挑战,但增程车基本盘仍具竞争力,预计全年销量超 50 万台[2][13] - 下个月推出 I8 有望提高毛利率,9 月推出 I6 可能成爆款产品,新车型 ENVELA 具备智能驾驶系统差异化竞争优势[13] 小鹏新车型 G7 对股价影响 - 新车型 G7 预售价约 23.5 万元,市场反应弱,正式发售可能降价,若最终定价被接受,股价有望回升[14] 其他重要但可能被忽略的内容 - 鹰眼摄像头分辨率达 800 万像素,比过去主流 400 - 500 万有提升,可看到更多车道线及应急车道边缘[9] - 小鹏 G7 顶配车型中三颗图灵芯片,两颗用于自动驾驶,一颗用于智能座舱[10]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]