报告投资评级 - 行业投资评级为“看好”,并维持该评级 [11] 报告核心观点 - 通用人工智能大模型迎来跨越式发展,为各类AI应用构建了坚实的技术底座,智能驾驶作为“物理AI”应用,注定向大模型演进 [3][6] - 通用大模型能力涌现,赋能智能驾驶模型基座,模型架构持续进阶,正逐步进入视觉-语言-动作模型和世界模型的物理AI时代,迈向智能涌现新阶段 [3][6][8] - 智能驾驶大模型从传统规则模型走向端到端大模型,并进一步向视觉-语言-动作模型和世界模型演进,国内头部玩家正加速迭代,智驾能力有望迎来飞跃 [8][107] 通用大模型技术演进 - AI大模型以Transformer为基底,依托算力指数级提升与海量多模态数据,实现了从单一语言理解到多模态融合、从专用任务适配到通用能力涌现的关键突破 [7][19] - 大语言模型发展历经多个关键阶段:2017年Transformer架构问世;2018-2020年预训练模型兴起;2021-2022年引入后训练对齐技术;2023-2024年多模态与推理模型发展;2025年进入以DeepSeek-R1为代表的成本高效推理模型时代 [23][26] - 模型训练范式从预训练规模化,发展到引入监督微调和基于人类反馈的强化学习进行后训练对齐,进入了“ChatGPT时刻” [27][30] - 2024年,模型开发开始强调提升推理能力,以OpenAI o1-preview为代表,模型推理能力飞跃,并引入Agent模式,实现了AI应用功能体验的质变,标志着商业化落地的重要拐点 [31][36][37] - DeepSeek-R1模型基于纯强化学习的创新技术路径,利用专家混合架构和优化算法,在表现出竞争力的同时大幅降低了运营成本,满足了国内算力不充裕背景下对超大参数模型训练的需求 [7][42] 智能驾驶大模型发展路径 - 智能驾驶从2023年开始,受特斯拉FSD V12引领,进入“端到端”大模型时代,车端模型参数规模普遍已达数十亿,云端达百亿级别,规模定律持续显现 [45] - 传统端到端模型通过神经网络直接建立视觉输入到驾驶轨迹的映射,属于“黑盒”方式,缺乏对物理世界规律的深入理解,且无需显式语义推理 [8][65] - 当前趋势是引入多模态大模型和强化学习,推动“端到端”模型向视觉-语言-动作模型范式演进,并融合世界模型,使智能驾驶进入物理AI时代 [8][51][67] - 特斯拉的自动驾驶架构演进经历了四个主要阶段:1)感知端到端;2)决策规划模型化;3)两段式端到端;4)一段式端到端,当前行业正迈向视觉-语言-动作模型和世界模型时代 [52][53] 视觉-语言-动作模型分析 - 视觉-语言-动作模型是一种融合视觉、语言和动作三大模态的端到端人工智能模型,它将感知、推理与控制一体化,直接根据视觉输入和语言指令生成可执行动作 [76] - 视觉-语言-动作模型的发展分为四个阶段:Pre-视觉-语言-动作模型阶段、模块化视觉-语言-动作模型阶段、端到端视觉-语言-动作模型阶段、增强型视觉-语言-动作模型阶段 [77][78][83] - 相较于“端到端+视觉语言模型”的中间形态,视觉-语言-动作模型实现了三个模态特征在统一空间中的集体建模与对齐,解决了双系统架构下泛化能力不足、交互稳定性难保证等问题,使智驾更具交互性、类人性和泛化性 [87] - 视觉-语言-动作模型架构主要由多模态编码器、大语言模型推理核心和解码器组成,输入经视觉和文本编码器处理,输出由轨迹解码器和文本解码器完成 [81][82] 世界模型分析 - 世界模型是一种生成式时空神经网络系统,旨在系统内部构建对物理环境的动态模拟与未来状态推演,让自动驾驶车辆具备“在脑海中预演未来”的能力 [91][92] - 世界模型通常覆盖三类任务:未来物理世界生成、行为规划与决策、联合预测与规划 [95] - 世界模型的核心优势在于能够预测和仿真未来、方便量化风险,并可通过仿真生成大量极端案例数据,但其挑战在于缺乏高级语义理解、实时高保真推演计算成本高,且本身不直接产出驾驶策略 [100] 视觉-语言-动作模型与世界模型的对比与融合 - 视觉-语言-动作模型与世界模型的核心目标不同:视觉-语言-动作模型侧重于实现人车交互与可解释的端到端自动驾驶,而世界模型侧重于构建一个内部预测与仿真系统 [100] - 视觉-语言-动作模型可以直接输出动作控制信号,是真正的端到端;而世界模型输出的是未来的场景状态,需要中间转译才能生成动作 [100][102] - 两者并非相互排斥,存在融合趋势,例如将世界模型的能力嵌入视觉-语言-动作模型的训练目标,或设计能够同时涵盖视觉、语言、动作与动态预测的统一融合模型,如World视觉-语言-动作模型 [104][105] 头部玩家技术路线与进展 - 国内头部智驾玩家加速模型迭代,向视觉-语言-动作模型和世界模型推进,模型架构、训练方式、算力、数据及参数量全面升级 [8][107] - 目前以小鹏、理想等为代表的主机厂主要采用视觉-语言-动作模型路线;以华为、蔚来等为代表的主机厂主要采用世界模型路线 [8][107] - 小鹏汽车:推出第二代视觉-语言-动作模型,去掉语言转译,将架构从V-L-A改为V/L-A,采用近1亿段视频训练数据,基座大模型参数达720亿,预期复杂小路平均接管里程提升13倍 [112] - 理想汽车:Mind视觉-语言-动作模型架构强化了3D空间信息处理、语言场景理解和集体行动生成能力 [116] - 华为:提出世界引擎+世界行为模型架构,云端世界引擎训练世界模型,车端世界行动模型将感知数据直接映射为控制动作,跳过语言解析 [120] 投资建议 - 整车方面:智驾实力领先和处于强新车周期的主机厂具备较强确定性,重点推荐小鹏汽车、江淮汽车、赛力斯、比亚迪、吉利汽车、零跑汽车、理想汽车、小米集团、长城汽车、上汽集团、长安汽车等 [9][124] - 零部件方面:智驾升级催动产业链投资新机遇,重点推荐拓普集团、伯特利、星宇股份、均胜电子等,重点关注德赛西威、科博达等 [9][124]
智驾平权系列六:AI 智能涌现新阶段,智驾 VLA 与世界模型之争