行业技术演进背景 - 自动驾驶行业技术术语频出,如“端到端”、“VLA”、“世界模型”,反映了下一代技术话语权的争夺[1] - 当硬件配置趋于同质化,智能驾驶能力成为新势力车企最关键的身份标签和品牌差异化要素[1] - 技术“黑话”不仅是技术路线的宣言,更是对技术品牌的精心包装,但背后存在落地体验落差与研发团队承压的问题[2] 技术架构演进:从规则到BEV - 早期辅助驾驶系统基于工程师编写的规则,分为感知、规划、控制三大模块[4] - 特斯拉在2021年AI DAY上公布BEV+Transformer技术架构,将多个摄像头2D图像统一投射到俯视坐标系形成360°鸟瞰图,有效解决遮挡与透视问题[4] - BEV+Transformer实现了跨摄像头特征的“前融合”,相比传统“后融合”方法大大提升了感知能力,并使特斯拉摆脱了对高精地图的依赖[5][6] - 2022-2023年,小鹏XNGP、蔚来NOP+、理想AD Max 3.0、华为ADS2.0相继实现自研BEV+Transformer方案量产,并展开无图NOA的“开城”竞速[8] 范式转移:端到端技术 - 特斯拉在2022年AI DAY披露FSD Beta V12架构,用一个庞大神经网络同时处理感知、规划,取代30万行代码,推动以“端到端”为核心的范式转移[9] - 中国新势力集体转向端到端架构,但早期出于安全考量,小鹏和华为采用相对保守的“多段式”端到端,将感知和规划模块分别用模型取代[10] - 小鹏在2024年中才向所有扶摇架构车型推送“一段式”端到端系统,华为ADS 3.0也宣布升级为“端到端”架构[10] - 理想在2024年发布“端到端+VLM”双系统方案,端到端模型负责“快思考”处理常规场景,VLM模型负责“深思考”应对复杂情况[12] - 地平线将端到端系统演化分为三代:第一代两段式、第二代一段式加重后处理、第三代更彻底的端到端,实现更拟人驾驶体验[14][16] 新一代技术架构:VLA与世界模型 - VLA模型将视觉感知、语言理解与物理动作控制关联,让机器根据人类语言指令或视觉场景理解执行动作[15][46] - 理想在2025年3月将双系统方案切换为VLA方案,并于2024年8月在理想i8上率先实现量产;小鹏计划2024年三季度推送其VLA方案[18] - 世界模型让AI智能体通过“想象”进行规划学习,再迁移到真实环境;蔚来直接将世界模型部署到车端命名为NWM,华为发布WEWA架构同样将世界模型用于实时控车[21][24][25] - 特斯拉通过占用网络构建3D空间的做法应用了世界模型思路,理想和小鹏将世界模型用于仿真测试和云端训练[23] 算力竞赛与模型研发 - 小鹏在车端堆叠2200 Tops算力,其中约1200 Tops用于辅助驾驶,理想的AD Max算力为700 Tops,蔚来的神玑NX9031芯片算力1000 Tops[18] - 小鹏CEO何小鹏预测特斯拉下一代硬件平台AI 5算力将在2000 Tops-4000 Tops之间[18] - 算力竞赛蔓延到云端:特斯拉2025年计划储备累计8.5万颗英伟达H100,小鹏云端算力规模为10 EFlops,理想超过13 EFlops[18][55] - 小鹏基座模型参数量为720亿,是主流VLA模型的35倍,通过知识蒸馏技术生成较小模型再部署到车端;理想基座模型起初用于智能座舱后延用到自动驾驶[19][54] 传感器技术路线 - 自动驾驶存在纯视觉与激光雷达两大感知路线:特斯拉坚持纯视觉,理想今年起标配激光雷达,小鹏取消激光雷达改用摄像头+4D毫米波雷达,华为和蔚来在高阶方案中搭载激光雷达[36] - 激光雷达成本已下降到200美元,4D毫米波雷达常被当作激光雷达的“平替”[36] - “无图”方案通过车载传感器实时感知理解道路,不依赖高精地图,对车辆感知和决策能力要求更高[37]
新势力卖车,为何满嘴“黑话”?