小鹏VLA
搜索文档
何小鹏“约赌”马斯克,小鹏能否成为“中国特斯拉”?
阿尔法工场研究院· 2025-12-15 08:06
文章核心观点 - 小鹏汽车董事长何小鹏公开立下赌约 目标是在2025年8月30日前 使小鹏VLA技术在国内达到特斯拉FSD V14.2在硅谷的整体水平 此举旨在挑战特斯拉在自动驾驶领域的领先地位 [5] - 小鹏汽车对自身技术发展路线充满信心 预测到2026年 其Ultra车型所搭载的与L4 Robotaxi同源的模型能力将显著超越市场上其他智能辅助驾驶产品数十倍甚至以上 [7] - 公司正通过全栈自研、巨额研发投入和硬件升级构建技术壁垒 并计划在2026年推出Robotaxi试运营 其自动驾驶技术的追赶与竞争是行业焦点 [8][9] 小鹏汽车对特斯拉FSD的评价与自身定位 - 何小鹏近期在硅谷试驾特斯拉FSD V14.2版本和Robotaxi约5小时 认为其已从一年前的“丝滑体验”进步到现在的“准L4的安心阶段” 标准车辆与Robotaxi使用同一模型表现一致 虽存瑕疵但已大幅度超过去年水准 [6] - 何小鹏坦承小鹏VLA的第一个版本尚无法完全实现FSD V14.2的全部能力 但透露VLA 2.0将在下个季度发布 [6] - 何小鹏认为未来将是同一个自动驾驶系统和硬件体系的时代 人们可直接享有L4能力的汽车 [6] 小鹏汽车的技术进展与规划 - 在2025年小鹏科技日上 公司推出第二代VLA模型 创新性地去掉了“语言转译”环节 首次实现从视觉信号到动作指令的端到端直接生成 [7] - 在第二代VLA技术支持下 小鹏自动辅助驾驶可应对各种复杂小路与园区场景 并首发“无导航自动辅助驾驶”Super LCC+人机共驾 该功能在不依赖导航情形下可全球范围开启 [7] - 计划于2026年第一季度向小鹏Ultra车型全量推送第二代VLA [7] - 从2025年三季度上市的小鹏G7和P7开始 旗下各车型的Ultra版本将全面升级智能硬件 搭载三颗自研图灵AI芯片 有效算力高达2250TOPS [8] - 小鹏将在2026年推出三款Robotaxi车型并启动试运营 与特斯拉不同 公司将专注于Robotaxi产品研发而不涉及运营环节 高德成为其首个全球生态合作伙伴 [8] 小鹏汽车的战略投入与行业判断 - 何小鹏预计未来汽车公司的年研发投入将达500亿元 其中300亿元将用于AI领域 对于小鹏而言 每年投入数十亿元建设算力中心已成为常态 [8] - 何小鹏认为未来十年内将看到L4级自动驾驶的更大规模应用 未来汽车将是“具身智能的汽车” 汽车产业和人形机器人产业将相辅相成、互相促进 [8] - 何小鹏在今年8月曾表示当前智能辅助驾驶第一梯队玩家“半斤八两” 有的依靠算力 算力不足的就通过算力加激光雷达的组合 [7] 行业竞争态势 - 智能驾驶的竞争不仅是算法之争 更是数据、算力与工程化能力的综合较量 [9] - 这场赌局背后是中国智能汽车企业在自动驾驶核心技术领域挑战全球领先者的缩影 [8]
基于准确的原始材料对比小鹏理想VLA
理想TOP2· 2025-11-20 18:42
小鹏汽车自动驾驶技术架构 - 技术核心为拆掉中间的Language层,采用Vision和Language联合输入的语料,认为中间的L影响数据使用效率和scaling up [1][3][5] - 架构使用Latent CoT作为隐空间进行生成和diffusion,侧重世界模型理解物理世界运行规律以输出动作 [3] - 明确没有纯粹Language语料,VL联合语料具体训练方式未解释 [1][5] - 自动驾驶能力取决于数据规模和使用效率,最难数据为corner case,海外泛化性不错 [3][4] - 目前未做Agent,计划2026年基于该架构在广州进行L4级Robotaxi测试 [4] - 强化学习在现有架构中非核心,仅被提及两次,涉及未来需解决如何使强化学习更通用等问题 [6] - 对技术路线存在模糊点,包括scaling持续程度、安全下限、超级对齐有效性及定制化影响等 [5] 理想汽车VLA训练体系 - 训练分三个阶段:预训练云端32B VL基座模型、后训练引入Action转为接近4B参数量VLA、强化学习阶段优化驾驶行为 [8][10][11][13][14][15] - 预训练VL基座包含3D视觉、清晰度提升3-5倍的高清2D视觉、驾驶相关Language语料及VL联合语料(如导航信息与人类判断同步记录) [10] - 为适配车端算力,将32B云端模型蒸馏为3.2B的MoE模型以保证推理速度 [11] - 后训练采用短链条CoT限制在2-3步以内,并加入Diffusion预测未来4-8秒轨迹和环境 [13] - 强化学习分两部分:RLHF实现与人类驾驶习惯及安全对齐;纯强化学习利用世界模型生成数据,基于舒适性(G值)、无碰撞、遵守交规三大指标自我进化,目标超越人类驾驶水平 [14][15][19] - 司机Agent分层处理指令,通用短指令由端侧VLA直接处理,复杂长指令上传至云端32B VL基座模型处理后交由端侧执行 [16][17] 行业技术路线共识与差异 - 小鹏与理想均将VLA、VLM、世界模型等视为端到端体系架构,本质均为Physical AI,技术方向大同小异 [5] - 关键差异在于理想VL基座明确包含驾驶相关纯Language语料,而小鹏强调没有纯粹L语料 [1][2] - 理想认为交通领域是VLA最早落地场景,因规则清晰、控制自由度低(2-3个)、易于模仿学习及强化学习反馈明确 [18][19] - 理想预计2025年底至2026年初强化学习闭环后实际体验将有显著提升 [2]
做自动驾驶VLA的这一年
自动驾驶之心· 2025-11-19 08:03
文章核心观点 - 视觉-语言-动作模型是一种整合视觉、语言和动作输出的多模态基础模型,旨在实现从感知到控制的端到端自动驾驶 [4][5][7] - VLA模型被视为继模块化流水线、端到端模型和视觉语言模型之后的下一代自动驾驶范式,能够解决传统方法在可解释性、泛化能力和行动执行方面的不足 [9][10][11] - 行业主流算法供应商和主机厂均在积极布局VLA技术,理想汽车和小鹏汽车已实现VLA模型的量产上车,标志着该技术从学术研究走向工业应用 [3][60][67] VLA定义与概念 - VLA模型被定义为"多模态大脑",能够处理图像或视频输入、语音或文字指令,并直接输出低层机器人动作或高层决策 [4][5][7] - 模型输入包括视觉画面、传感器数据和语言指令,输出可分为低阶控制信号和高阶轨迹规划两类 [13][16][18] - 以自动驾驶车辆为例,VLA不仅能执行驾驶任务,还能解释行为原因并理解人类自然语言指令,实现"看、想、做"的统一 [8] VLA出现背景与发展阶段 - 自动驾驶技术演进分为四个阶段:模块化流水线、端到端模型、视觉语言模型和VLA模型,VLA的出现旨在解决前代技术死板、黑箱或缺乏直接行动能力的问题 [9][10][11] - VLA模型继承大模型语义先验,能够借助常识推理处理罕见长尾场景,提升系统在复杂环境下的适应性和安全性 [10] VLA架构拆解 输入端 - 视觉输入包括前向和环视摄像头图像,常转换为BEV或体素表示以理解空间关系 [13] - 传感器输入涵盖LiDAR、RADAR、IMU和GPS,与视觉数据互补提升系统鲁棒性,部分企业如小鹏采用纯视觉方案 [13] - 语言输入支持导航指令、问答交互和规则约束,未来可能扩展至车内自然对话 [13] 中间层 - 视觉编码器使用DINOv2、ConvNeXt-V2、CLIP等预训练模型提取特征,部分模型进行跨模态对齐 [14] - 语言处理器基于LLaMA、GPT等LLM变体,通过指令微调、LoRA、RAG等技术适配驾驶场景,具备链式思维推理能力 [14] - 动作解码器采用序列预测、扩散模型或分层控制结构生成轨迹或控制信号 [14][15] 输出端 - 低层输出直接控制油门、刹车、方向角等执行器,保证即时反应速度 [18] - 高层输出规划未来2-5秒连续路径,便于与现有自动驾驶系统融合 [18] VLA发展编年史 LINGO系列(Wayve) - LINGO-1(2023年9月)首次将自然语言引入自动驾驶,具备可解释驾驶、视觉问答和驾驶知识推理能力,但功能以评论动作为主 [20][21][22][23] - LINGO-2(2024年10月)实现指令跟随和交互式驾驶,能理解并执行"在下一个路口右转"等自然语言指令,标志语言与驾驶深度结合 [35][36][37] CarLLaVA(2024年6月) - 基于视觉语言模型的端到端系统,仅使用摄像头输入,在CARLA挑战赛中获得第一名,为纯视觉方案提供实践基础 [25][26][27] CoVLA(2024年8月) - 提出包含超过80小时驾驶场景的大规模多模态数据集,通过自动化流程生成视觉、语言和行动标注,解决数据稀缺问题 [31][32] SimLingo(2025年3月) - 强调语言与行动对齐,通过"Action Dreaming"任务确保指令理解直接影响决策,在CARLA仿真器中达到顶尖性能 [39][40][42][46] OpenDriveVLA(2025年3月) - 融合多视角图像、3D环境信息和驾驶指令,采用分层特征对齐和交互建模,在nuScenes数据集上实现最优轨迹预测 [44][48][51] DriveMoE(2025年5月) - 引入混合专家模型,动态选择摄像头视图和驾驶技能专家,提升计算效率和复杂场景处理能力 [52][53] AutoVLA(2025年5月) - 结合自适应推理与强化微调,支持"快速思维"和"慢速思维"双模式,在多个数据集上实现优越的推理与轨迹生成性能 [55][56][57] 主机厂VLA方案 理想汽车MindAVLA - 采用MoE架构和3D高斯表达,具备思维链推理和扩散轨迹生成能力,通过三阶段训练模拟人类学习过程 [60][62][63][65] - 已实现量产上车,依托自研推理引擎和INT4量化技术完成车端部署 [65] 小鹏汽车VLA 2.0 - 实现端到端直连,跳过语言转译环节直接生成驾驶动作,建立统一智能基底支持多设备驱动 [69] - 训练数据接近1亿段真实驾驶视频,基础模型参数量达720亿,每5天完成一次全链路更新 [69]