AI智能涌现新阶段-智驾VLA与世界模型之争

行业与公司研究关键要点一、涉及的行业与公司 * 行业：智能驾驶（自动驾驶）行业，涵盖技术演进、政策法规、商业化进程 * 公司： * 整车/技术方案商：小鹏汽车、理想汽车、华为、蔚来、特斯拉 * 上游供应商：禾赛科技（激光雷达）、地平线（智驾芯片） * Robotaxi运营商：小马智行、文远知行、曹操出行二、核心观点与论据 1. 技术范式演进路径 * 智能驾驶正从“规则+地图”向“端到端大模型数据驱动”演进，并进一步加速向“VLA（视觉-语言-动作）+世界模型”的物理AI范式演化[3] * 技术路径出现分化：华为、蔚来侧重“云端世界引擎+车端世界行动模型”；小鹏、理想侧重VOA路线，将大语言模型嵌入支架算法内部[1] * 结构演进路径：从分模块（感知、决策独立）→ 两段式端到端（模块间隐式表达）→ 一段式端到端（单一全链路模型）[6] * 两段式端到端被视为向一段式过渡的相对可实现路径，因存在中间表达更利于观察模型运行过程[6] 2. 模型能力与训练范式升级 * 模型规模：智能驾驶模型参数规模持续跃迁，车端迈向“数十亿参数门槛”，云端向“百亿级别”提升[1][6] * 训练范式转变：从依赖人类驾驶数据的模仿学习，转向“预训练+监督微调+强化学习”模式，以突破人类能力上限并解决风险非对称性问题[1][8] * 推理能力增强：引入“结构化推理”或“长链思维”以提升复杂场景决策质量，例如小鹏第二代VLA通过“32倍超密视觉推理思维链”使预测误差降低约33%[1][4][5] * 通用大模型映射：通用大模型在规模化能力跃迁、推理能力增强、后训练优化等方面的突破，持续向智能驾驶模型“映射”关键能力[3] 3. VLA/VOA与世界模型的核心特征与差异 * VLA/VOA模型：在统一模型框架内融合视觉、语言与动作，实现感知、推理与控制一体化，强调复杂语义理解与决策[9][10] * 优势：将大语言模型嵌入支架算法内部，相比外挂双系统方案，在交互性、类人性与长尾场景泛化性上更强[10] * 输入：摄像头、导航、地图等信号；输出：轨迹解码器（生成未来行驶计划）和文字解码器（生成自然语言解释）[10] * 世界模型：在系统内部构建对物理环境的动态模拟与未来状态推演，以提升复杂场景的预见性与应对能力[7][11] * 核心能力：对未来物理世界的生成、行为规划与决策、联合预测与规划[11] * 两者关系：并非相互排斥，呈现相辅相成与融合趋势，例如将世界模型能力嵌入VOA的训练目标，或设计统一的动态融合模型[11] 4. 头部厂商技术路线与进展 * 小鹏汽车：侧重VOA路线，已发布第二代VLA * 采用原生多模态物理世界基座模型，支持“视觉+语言”多模态直接输入[12] * 通过32倍超密视觉推理思维链，预测误差降低约33%[1][12] * 全栈自研优化提升车端运行效率，云端数据储备与模型训练量规模与ChatGPT相当[12] * 理想汽车：采用MindV-VOA路线，强化空间信息处理、场景理解与集体行为动作生成能力[12] * 华为：侧重世界模型路径，采用“云端世界引擎+车端世界行动模型”的两段式架构，车端感知数据直接映射控制行为[1][12] * 特斯拉：在感知端到端阶段的关键技术组合包括BEV、Transformer与OCC，解决了多传感器融合、信息丢失与遮挡等问题[7] 5. 关键时间节点与行业催化 * 2026年为关键催化时点[1] * 政策端： * L3/L4相关法案草案已于2026年春节前出台[13] * L2组合驾驶强标预计2026年第二季度发布正式版本[1][13] * 线控制动（EMB）、线控转向等技术标准有望2026年下半年逐步落地[1][13] * 产业端： * 特斯拉Cybercab预计2026年4月量产，FSD将全量入华[1][13] * 国内头部厂商智驾算法加速迭代[13] * Robotaxi商业化运营迎来拐点[13] 6. 投资逻辑与关注方向 * 投资聚焦：冗余能力与国产替代[2] * 重点关注增量方向： * 激光雷达：监管要求与智驾升级推动需求提升，如禾赛科技[2][13] * 高阶智驾芯片自主化：国产替代空间大，如地平线[2][13] * Robotaxi商业化：单车UE模型跑通，迎来商业化拐点，关注小马智行、文远知行、曹操出行[2][13] * 智驾领先整车标的：智驾能力对估值提升作用增强，关注小鹏汽车[2][13] 三、其他重要内容 1. 通用AI发展对智驾的启示 * Deepseek路径启示：在算力资源受限情况下，可通过更高效的后训练设计、多阶段微调与强化学习，在不依赖巨额预训练投入的情况下实现高性能推理与人类偏好一致性，这对算力储备相对较少的车企具有参考意义[4][5] * 通用大模型关键跃迁路径： * 第一阶段：“预训练+后训练对齐”（ChatGPT时刻）[4] * 第二阶段：引入多模态与显著增强推理能力（AI Agent时刻）[4] * 第三阶段（2025年后）：以Deepseek为代表的“成本高效推理模型”（Deepseek时刻）[1][4] 2. 技术挑战与解决方案 * 模仿学习的瓶颈：能力上限受制于人类驾驶水平，存在风险非对称性问题（如紧急制动场景下，“刹车更多”与“刹车更少”结果风险不同但可能受同等惩罚）[8] * 端到端模型的局限：传统端到端偏黑盒，对物理规律理解不足，输出偏差难以定位根因[7] * 解决方案：引入多模态大语言模型与VLA架构弥补视觉模型推理能力短板；通过强化学习提升泛化能力与模型能力上限[7][8]