智驾平权系列六：AI 智能涌现新阶段，智驾 VLA 与世界模型之争

报告投资评级 - 行业投资评级为“看好”，并维持该评级 [11] 报告核心观点 - 通用人工智能大模型迎来跨越式发展，为各类AI应用构建了坚实的技术底座，智能驾驶作为“物理AI”应用，注定向大模型演进 [3][6] - 通用大模型能力涌现，赋能智能驾驶模型基座，模型架构持续进阶，正逐步进入视觉-语言-动作模型和世界模型的物理AI时代，迈向智能涌现新阶段 [3][6][8] - 智能驾驶大模型从传统规则模型走向端到端大模型，并进一步向视觉-语言-动作模型和世界模型演进，国内头部玩家正加速迭代，智驾能力有望迎来飞跃 [8][107] 通用大模型技术演进 - AI大模型以Transformer为基底，依托算力指数级提升与海量多模态数据，实现了从单一语言理解到多模态融合、从专用任务适配到通用能力涌现的关键突破 [7][19] - 大语言模型发展历经多个关键阶段：2017年Transformer架构问世；2018-2020年预训练模型兴起；2021-2022年引入后训练对齐技术；2023-2024年多模态与推理模型发展；2025年进入以DeepSeek-R1为代表的成本高效推理模型时代 [23][26] - 模型训练范式从预训练规模化，发展到引入监督微调和基于人类反馈的强化学习进行后训练对齐，进入了“ChatGPT时刻” [27][30] - 2024年，模型开发开始强调提升推理能力，以OpenAI o1-preview为代表，模型推理能力飞跃，并引入Agent模式，实现了AI应用功能体验的质变，标志着商业化落地的重要拐点 [31][36][37] - DeepSeek-R1模型基于纯强化学习的创新技术路径，利用专家混合架构和优化算法，在表现出竞争力的同时大幅降低了运营成本，满足了国内算力不充裕背景下对超大参数模型训练的需求 [7][42] 智能驾驶大模型发展路径 - 智能驾驶从2023年开始，受特斯拉FSD V12引领，进入“端到端”大模型时代，车端模型参数规模普遍已达数十亿，云端达百亿级别，规模定律持续显现 [45] - 传统端到端模型通过神经网络直接建立视觉输入到驾驶轨迹的映射，属于“黑盒”方式，缺乏对物理世界规律的深入理解，且无需显式语义推理 [8][65] - 当前趋势是引入多模态大模型和强化学习，推动“端到端”模型向视觉-语言-动作模型范式演进，并融合世界模型，使智能驾驶进入物理AI时代 [8][51][67] - 特斯拉的自动驾驶架构演进经历了四个主要阶段：1）感知端到端；2）决策规划模型化；3）两段式端到端；4）一段式端到端，当前行业正迈向视觉-语言-动作模型和世界模型时代 [52][53] 视觉-语言-动作模型分析 - 视觉-语言-动作模型是一种融合视觉、语言和动作三大模态的端到端人工智能模型，它将感知、推理与控制一体化，直接根据视觉输入和语言指令生成可执行动作 [76] - 视觉-语言-动作模型的发展分为四个阶段：Pre-视觉-语言-动作模型阶段、模块化视觉-语言-动作模型阶段、端到端视觉-语言-动作模型阶段、增强型视觉-语言-动作模型阶段 [77][78][83] - 相较于“端到端+视觉语言模型”的中间形态，视觉-语言-动作模型实现了三个模态特征在统一空间中的集体建模与对齐，解决了双系统架构下泛化能力不足、交互稳定性难保证等问题，使智驾更具交互性、类人性和泛化性 [87] - 视觉-语言-动作模型架构主要由多模态编码器、大语言模型推理核心和解码器组成，输入经视觉和文本编码器处理，输出由轨迹解码器和文本解码器完成 [81][82] 世界模型分析 - 世界模型是一种生成式时空神经网络系统，旨在系统内部构建对物理环境的动态模拟与未来状态推演，让自动驾驶车辆具备“在脑海中预演未来”的能力 [91][92] - 世界模型通常覆盖三类任务：未来物理世界生成、行为规划与决策、联合预测与规划 [95] - 世界模型的核心优势在于能够预测和仿真未来、方便量化风险，并可通过仿真生成大量极端案例数据，但其挑战在于缺乏高级语义理解、实时高保真推演计算成本高，且本身不直接产出驾驶策略 [100] 视觉-语言-动作模型与世界模型的对比与融合 - 视觉-语言-动作模型与世界模型的核心目标不同：视觉-语言-动作模型侧重于实现人车交互与可解释的端到端自动驾驶，而世界模型侧重于构建一个内部预测与仿真系统 [100] - 视觉-语言-动作模型可以直接输出动作控制信号，是真正的端到端；而世界模型输出的是未来的场景状态，需要中间转译才能生成动作 [100][102] - 两者并非相互排斥，存在融合趋势，例如将世界模型的能力嵌入视觉-语言-动作模型的训练目标，或设计能够同时涵盖视觉、语言、动作与动态预测的统一融合模型，如World视觉-语言-动作模型 [104][105] 头部玩家技术路线与进展 - 国内头部智驾玩家加速模型迭代，向视觉-语言-动作模型和世界模型推进，模型架构、训练方式、算力、数据及参数量全面升级 [8][107] - 目前以小鹏、理想等为代表的主机厂主要采用视觉-语言-动作模型路线；以华为、蔚来等为代表的主机厂主要采用世界模型路线 [8][107] - 小鹏汽车：推出第二代视觉-语言-动作模型，去掉语言转译，将架构从V-L-A改为V/L-A，采用近1亿段视频训练数据，基座大模型参数达720亿，预期复杂小路平均接管里程提升13倍 [112] - 理想汽车：Mind视觉-语言-动作模型架构强化了3D空间信息处理、语言场景理解和集体行动生成能力 [116] - 华为：提出世界引擎+世界行为模型架构，云端世界引擎训练世界模型，车端世界行动模型将感知数据直接映射为控制动作，跳过语言解析 [120] 投资建议 - 整车方面：智驾实力领先和处于强新车周期的主机厂具备较强确定性，重点推荐小鹏汽车、江淮汽车、赛力斯、比亚迪、吉利汽车、零跑汽车、理想汽车、小米集团、长城汽车、上汽集团、长安汽车等 [9][124] - 零部件方面：智驾升级催动产业链投资新机遇，重点推荐拓普集团、伯特利、星宇股份、均胜电子等，重点关注德赛西威、科博达等 [9][124]