小鹏VLA
搜索文档
何小鹏“约赌”马斯克,小鹏能否成为“中国特斯拉”?
阿尔法工场研究院· 2025-12-15 08:06
以下文章来源于Auto有范儿 ,作者王小娟 Auto有范儿 . 讲述独特的汽车故事。 导语:2026年小鹏Ultra会超越行业智驾驶产数十倍甚至以上? 今年还未过去,汽车行业就智能辅助驾驶的领先已经开始预约明年的"战火"了。 12月11日,小鹏汽车董事长、CEO何小鹏在社交媒体上立下一则"赌约": 若到明年8月30日, 小鹏VLA技术在国内达到特斯拉FSD V14.2在硅谷的整体水平,他将在硅谷筹建中国风味食堂; 若失败,自动驾驶负责人Head Xianming(刘先明)将在金门大桥"裸跑"。 何小鹏立下这个赌约,放话与特斯拉一争高下,也因为对特斯拉FSD系统长期的体验与观察。 何小鹏认为,未来将是同一个自动驾驶系统和硬件体系的时代,人们可以直接享有L4能力的汽 车。这一判断与小鹏汽车自身的技术路线选择密切相关。 在公开称赞特斯拉FSD的同时,何小鹏也不掩饰小鹏VLA与FSD当前存在的差距。他坦承:"小鹏 VLA的第一个版本尚无法完全实现FSD V14.2的全部能力。" 但同时也透露,小鹏VLA 2.0将在 下个季度发布。 对于追赶时间表,何小鹏在今年8月曾表示,当前智能辅助驾驶的第一梯队玩家"半斤八两",有 ...
基于准确的原始材料对比小鹏理想VLA
理想TOP2· 2025-11-20 18:42
小鹏汽车自动驾驶技术架构 - 技术核心为拆掉中间的Language层,采用Vision和Language联合输入的语料,认为中间的L影响数据使用效率和scaling up [1][3][5] - 架构使用Latent CoT作为隐空间进行生成和diffusion,侧重世界模型理解物理世界运行规律以输出动作 [3] - 明确没有纯粹Language语料,VL联合语料具体训练方式未解释 [1][5] - 自动驾驶能力取决于数据规模和使用效率,最难数据为corner case,海外泛化性不错 [3][4] - 目前未做Agent,计划2026年基于该架构在广州进行L4级Robotaxi测试 [4] - 强化学习在现有架构中非核心,仅被提及两次,涉及未来需解决如何使强化学习更通用等问题 [6] - 对技术路线存在模糊点,包括scaling持续程度、安全下限、超级对齐有效性及定制化影响等 [5] 理想汽车VLA训练体系 - 训练分三个阶段:预训练云端32B VL基座模型、后训练引入Action转为接近4B参数量VLA、强化学习阶段优化驾驶行为 [8][10][11][13][14][15] - 预训练VL基座包含3D视觉、清晰度提升3-5倍的高清2D视觉、驾驶相关Language语料及VL联合语料(如导航信息与人类判断同步记录) [10] - 为适配车端算力,将32B云端模型蒸馏为3.2B的MoE模型以保证推理速度 [11] - 后训练采用短链条CoT限制在2-3步以内,并加入Diffusion预测未来4-8秒轨迹和环境 [13] - 强化学习分两部分:RLHF实现与人类驾驶习惯及安全对齐;纯强化学习利用世界模型生成数据,基于舒适性(G值)、无碰撞、遵守交规三大指标自我进化,目标超越人类驾驶水平 [14][15][19] - 司机Agent分层处理指令,通用短指令由端侧VLA直接处理,复杂长指令上传至云端32B VL基座模型处理后交由端侧执行 [16][17] 行业技术路线共识与差异 - 小鹏与理想均将VLA、VLM、世界模型等视为端到端体系架构,本质均为Physical AI,技术方向大同小异 [5] - 关键差异在于理想VL基座明确包含驾驶相关纯Language语料,而小鹏强调没有纯粹L语料 [1][2] - 理想认为交通领域是VLA最早落地场景,因规则清晰、控制自由度低(2-3个)、易于模仿学习及强化学习反馈明确 [18][19] - 理想预计2025年底至2026年初强化学习闭环后实际体验将有显著提升 [2]
做自动驾驶VLA的这一年
自动驾驶之心· 2025-11-19 08:03
文章核心观点 - 视觉-语言-动作模型是一种整合视觉、语言和动作输出的多模态基础模型,旨在实现从感知到控制的端到端自动驾驶 [4][5][7] - VLA模型被视为继模块化流水线、端到端模型和视觉语言模型之后的下一代自动驾驶范式,能够解决传统方法在可解释性、泛化能力和行动执行方面的不足 [9][10][11] - 行业主流算法供应商和主机厂均在积极布局VLA技术,理想汽车和小鹏汽车已实现VLA模型的量产上车,标志着该技术从学术研究走向工业应用 [3][60][67] VLA定义与概念 - VLA模型被定义为"多模态大脑",能够处理图像或视频输入、语音或文字指令,并直接输出低层机器人动作或高层决策 [4][5][7] - 模型输入包括视觉画面、传感器数据和语言指令,输出可分为低阶控制信号和高阶轨迹规划两类 [13][16][18] - 以自动驾驶车辆为例,VLA不仅能执行驾驶任务,还能解释行为原因并理解人类自然语言指令,实现"看、想、做"的统一 [8] VLA出现背景与发展阶段 - 自动驾驶技术演进分为四个阶段:模块化流水线、端到端模型、视觉语言模型和VLA模型,VLA的出现旨在解决前代技术死板、黑箱或缺乏直接行动能力的问题 [9][10][11] - VLA模型继承大模型语义先验,能够借助常识推理处理罕见长尾场景,提升系统在复杂环境下的适应性和安全性 [10] VLA架构拆解 输入端 - 视觉输入包括前向和环视摄像头图像,常转换为BEV或体素表示以理解空间关系 [13] - 传感器输入涵盖LiDAR、RADAR、IMU和GPS,与视觉数据互补提升系统鲁棒性,部分企业如小鹏采用纯视觉方案 [13] - 语言输入支持导航指令、问答交互和规则约束,未来可能扩展至车内自然对话 [13] 中间层 - 视觉编码器使用DINOv2、ConvNeXt-V2、CLIP等预训练模型提取特征,部分模型进行跨模态对齐 [14] - 语言处理器基于LLaMA、GPT等LLM变体,通过指令微调、LoRA、RAG等技术适配驾驶场景,具备链式思维推理能力 [14] - 动作解码器采用序列预测、扩散模型或分层控制结构生成轨迹或控制信号 [14][15] 输出端 - 低层输出直接控制油门、刹车、方向角等执行器,保证即时反应速度 [18] - 高层输出规划未来2-5秒连续路径,便于与现有自动驾驶系统融合 [18] VLA发展编年史 LINGO系列(Wayve) - LINGO-1(2023年9月)首次将自然语言引入自动驾驶,具备可解释驾驶、视觉问答和驾驶知识推理能力,但功能以评论动作为主 [20][21][22][23] - LINGO-2(2024年10月)实现指令跟随和交互式驾驶,能理解并执行"在下一个路口右转"等自然语言指令,标志语言与驾驶深度结合 [35][36][37] CarLLaVA(2024年6月) - 基于视觉语言模型的端到端系统,仅使用摄像头输入,在CARLA挑战赛中获得第一名,为纯视觉方案提供实践基础 [25][26][27] CoVLA(2024年8月) - 提出包含超过80小时驾驶场景的大规模多模态数据集,通过自动化流程生成视觉、语言和行动标注,解决数据稀缺问题 [31][32] SimLingo(2025年3月) - 强调语言与行动对齐,通过"Action Dreaming"任务确保指令理解直接影响决策,在CARLA仿真器中达到顶尖性能 [39][40][42][46] OpenDriveVLA(2025年3月) - 融合多视角图像、3D环境信息和驾驶指令,采用分层特征对齐和交互建模,在nuScenes数据集上实现最优轨迹预测 [44][48][51] DriveMoE(2025年5月) - 引入混合专家模型,动态选择摄像头视图和驾驶技能专家,提升计算效率和复杂场景处理能力 [52][53] AutoVLA(2025年5月) - 结合自适应推理与强化微调,支持"快速思维"和"慢速思维"双模式,在多个数据集上实现优越的推理与轨迹生成性能 [55][56][57] 主机厂VLA方案 理想汽车MindAVLA - 采用MoE架构和3D高斯表达,具备思维链推理和扩散轨迹生成能力,通过三阶段训练模拟人类学习过程 [60][62][63][65] - 已实现量产上车,依托自研推理引擎和INT4量化技术完成车端部署 [65] 小鹏汽车VLA 2.0 - 实现端到端直连,跳过语言转译环节直接生成驾驶动作,建立统一智能基底支持多设备驱动 [69] - 训练数据接近1亿段真实驾驶视频,基础模型参数量达720亿,每5天完成一次全链路更新 [69]