Workflow
视觉-语言-动作大模型
icon
搜索文档
智能驾驶深度报告:世界模型与VLA技术路线并行发展
国元证券· 2025-10-22 16:56
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2] 报告核心观点 - 智能驾驶行业正沿着"端到端"和"智驾平权"两大方向加速进化 [3][16] - 端到端智能驾驶技术已演进分化出VLA和世界模型两条核心并行发展路径 [64][69] - VLA技术路线适合快速迭代和现有量产平台兼容 世界模型路线则代表更底层的认知方式 强调物理规律和空间理解力 适合长期演进 [69] - 新能源车销量与智驾功能形成协同增长闭环 推动智能驾驶快速渗透 [9] 智能驾驶行业发展回顾 - 中国新能源车渗透率从2019年较低水平一路攀升 先后突破10%、30%、50%等关键关口 [9] - 中国新能源汽车L2级别智能驾驶功能渗透率从2019年的约7%起步 到2025H1已上升至65%左右 [9] - 2024年中国智能网联汽车产业规模已攀升至11082亿元 同比增长34% 预计到2030年产业规模有望突破5万亿元 [15] - 截至2025年6月 中国智能驾驶产业主体数量快速增长 注册相关企业总数已超过7000家 [15] 智驾沿"端到端"、"智驾平权"加速 - 高阶智驾功能搭载率从2024年1–4月的11.8%提升至2025年同期的18.6% [21] - 20–30万元价位段汽车的L2++智能驾驶功能搭载率从2024年Q1的25.15%升至2025年4–5月的47.11% 实现近乎翻倍增长 [27] - 头部自主品牌将智能驾驶价格门槛拉低 例如比亚迪秦PLUS智驾版售价11.98万元已搭载高速NOA功能 中长期目标是在10万元级别车型上实现高速NOA全面标配 [21] 端到端智能驾驶复盘 - 端到端自动驾驶架构演进分为四个主要阶段:感知"端到端"/"BEV+ transformer"、决策规划模型化/"占用网络"、模块化端到端/两段式端到端、OneModel/一段式端到端 [32] - BEV感知通过融合多传感器数据形成360°全方位无死角感知视野 结合Transformer注意力机制实现对关键区域聚焦处理 [37][41] - 占用网络通过对三维空间进行体素级划分与占用预测 构建更高精度的全局环境表示 能够识别未被标注的"泛目标" 提升系统环境理解力 [46] - 一段式端到端模型将传统"感知—规划—控制"流程统一映射到单一模型中 减少任务拆解带来的累积误差 但缺乏可解释性且需要海量高质量数据 [57][59] VLA技术路线 - VLA模型将视觉、语言与动作三大模态深度耦合 其核心流程可拆解为四步:环境感知、转化为语言Token、生成驾驶建议、转化为车辆控制轨迹 [69][76] - VLA技术落地的三大关键抓手包括:3D中间表征、长时序记忆、效率/能耗优化 [93] - VLA工程化难点包括:极端工况下的模型稳定性、长尾场景的泛化能力、多源数据的时序同步与时空一致性 [94][97] - VLA技术发展趋势围绕"空间—时间—成本"三条核心路径系统化演进:空间维度向高精度三维语义建模过渡 时间维度发展长时记忆与预测 成本维度通过MoE技术和模型蒸馏实现结构化算力优化 [111] 世界模型技术路线 - 世界模型是一类能够模拟和推演真实环境状态的生成式AI框架 通过对环境物理规律和因果关系的建模 实现对现实世界的"内在理解"与"主动推理" [117] - 世界模型的演进脉络分为三个阶段:Dyna算法奠定理论基础、《World Models》推动进入深度学习阶段、以Dreamer系列为代表的加速落地阶段 [121] - 世界模型在智能驾驶中的四大价值包括:大幅降低数据成本、升级安全标准、提升时空一致性、具备认知推理能力 [127][133] - 世界模型工程化难点包括:长期可扩展内存瓶颈、仿真与现实世界的差异、决策与责任机制缺失、隐私与数据安全挑战 [134][138] - 世界模型未来趋势是与强化学习深度结合 通过在虚拟环境中交互试错 使模型具备主动探索与优化能力 有效降低错误策略导致的安全风险与成本消耗 [144]