小鹏加速冲向L4终局：对VLA架构「动刀」成关键一环

文章核心观点 - 物理AI（尤其是视觉-语言-动作模型）成为重要趋势，但传统VLA架构因依赖语言作为中间层而存在信息损失和效率瓶颈 [2] - 公司通过推出第二代VLA，创新性地去除了“语言转译”环节，实现了从视觉信号到动作指令的端到端直接生成，旨在解决上述痛点并通向完全自动驾驶 [2][5] - 第二代VLA不仅是产品体验的升级，更是底层技术架构的完全重构，代表了AI驱动驾驶技术的一次重要架构升级 [16][19][39] 技术架构与创新 - 架构革新：第二代VLA采用端到端的“视觉-动作”架构，将环境感知直接转化为驾驶决策，不再需要先转化为语言推理过程 [19] - 一体化模型：以统一模型贯通环境感知、场景推理与行动决策，实现“感知—推理—行动”一体化 [20] - 感知层创新：通过原生多模态Tokenizer，实现视觉、语音、文本等的统一编码与融合，形成对物理世界的统一理解 [21] - 推理层提升：引入超密集视觉思维链，相较于传统CoT推理效率提升约32倍，预测误差降低33% [21] - 行动层输出：模型直接生成多模态输出，包括语音、视觉反馈以及具体动作和行为 [22] - 计算优化：与北京大学联合提出视觉token剪枝框架FastDriveVLA，让AI专注于核心路况信息，高效处理高帧率图像带来的计算量问题 [24] 产品性能与体验 - 三大提升维度：第二代VLA在实际体验上的提升主要体现在安心丝滑、全场景能力和高效率三大维度 [7] - 识别能力：端到端模型具备强大泛化能力，能准确识别各种异形车辆 [8] - 场景应对：能正确识别交通事故中的障碍物，并进行实时路径规划 [10] - 全场景覆盖：支持从停车位原地激活，覆盖园区小路、乡村土路及无导航道路等复杂场景 [12] - 无缝衔接：实现从家里车位到公司车位的点到点无缝衔接辅助驾驶 [15] - 效率提升：在保障安全的前提下，综合行车效率实测提升23%，在城市晚高峰复杂路况下通行效率超过传统L2智驾和Robotaxi [15] - 使用门槛：技术使用门槛大幅降低，旨在让国民智驾像坐电梯一样简单、安全且好用 [15] 能力构建体系 - 能力公式：提出L4级自动驾驶能力遵循“模型 × 算力 × 数据 × 本体”的规模法则，强调算法、硬件与数据的深度耦合 [26][27] - 算力协同：通过自研图灵芯片及“芯片-编译器-模型”的联合优化，实现了深度软硬件一体化，模型在车端运行速度飙升12倍 [30] - 数据规模：已积累超过50PB的训练数据，车端高清传感器每秒处理高达53亿字节的视觉数据 [32] - 数据飞轮：仅20万辆搭载第二代VLA Ultra的车辆，每天在车端模型消耗的物理AI Token量高达58.8万亿，是全国数字AI日调用量（约0.737万亿Token）的近80倍 [31] - AI基础设施与仿真：依托领先的AI基础设施，在半年内完成了468个模型版本迭代；仿真场景库从一年前的3万个激增至50多万个，日均仿真测试里程等效于3000万公里实车测试 [34] 行业意义与公司战略 - 行业突破：基于端到端模型的辅助驾驶能力被认为是汽车行业未来三年的重要突破，是面向完全自动驾驶的第一个版本 [39] - 技术路径探索：第二代VLA代表了公司在自动驾驶技术路径上的一次重要探索，即围绕自研基座模型打造统一的物理世界智能系统，而非传统模块化优化思路 [39] - 竞争关键：这种以AI驱动、统一理解真实世界并持续学习演进的技术体系，将成为自动驾驶下一阶段竞争的关键变量 [40] - 发展预测：行业普遍预测2026年将成为“物理AI元年”，公司第二代VLA的落地被视为率先给出了通向完全自动驾驶的“中国答案” [5]