Workflow
Occupancy Network
icon
搜索文档
智能驾驶深度报告:世界模型与VLA技术路线并行发展
国元证券· 2025-10-22 16:56
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2] 报告核心观点 - 智能驾驶行业正沿着"端到端"和"智驾平权"两大方向加速进化 [3][16] - 端到端智能驾驶技术已演进分化出VLA和世界模型两条核心并行发展路径 [64][69] - VLA技术路线适合快速迭代和现有量产平台兼容 世界模型路线则代表更底层的认知方式 强调物理规律和空间理解力 适合长期演进 [69] - 新能源车销量与智驾功能形成协同增长闭环 推动智能驾驶快速渗透 [9] 智能驾驶行业发展回顾 - 中国新能源车渗透率从2019年较低水平一路攀升 先后突破10%、30%、50%等关键关口 [9] - 中国新能源汽车L2级别智能驾驶功能渗透率从2019年的约7%起步 到2025H1已上升至65%左右 [9] - 2024年中国智能网联汽车产业规模已攀升至11082亿元 同比增长34% 预计到2030年产业规模有望突破5万亿元 [15] - 截至2025年6月 中国智能驾驶产业主体数量快速增长 注册相关企业总数已超过7000家 [15] 智驾沿"端到端"、"智驾平权"加速 - 高阶智驾功能搭载率从2024年1–4月的11.8%提升至2025年同期的18.6% [21] - 20–30万元价位段汽车的L2++智能驾驶功能搭载率从2024年Q1的25.15%升至2025年4–5月的47.11% 实现近乎翻倍增长 [27] - 头部自主品牌将智能驾驶价格门槛拉低 例如比亚迪秦PLUS智驾版售价11.98万元已搭载高速NOA功能 中长期目标是在10万元级别车型上实现高速NOA全面标配 [21] 端到端智能驾驶复盘 - 端到端自动驾驶架构演进分为四个主要阶段:感知"端到端"/"BEV+ transformer"、决策规划模型化/"占用网络"、模块化端到端/两段式端到端、OneModel/一段式端到端 [32] - BEV感知通过融合多传感器数据形成360°全方位无死角感知视野 结合Transformer注意力机制实现对关键区域聚焦处理 [37][41] - 占用网络通过对三维空间进行体素级划分与占用预测 构建更高精度的全局环境表示 能够识别未被标注的"泛目标" 提升系统环境理解力 [46] - 一段式端到端模型将传统"感知—规划—控制"流程统一映射到单一模型中 减少任务拆解带来的累积误差 但缺乏可解释性且需要海量高质量数据 [57][59] VLA技术路线 - VLA模型将视觉、语言与动作三大模态深度耦合 其核心流程可拆解为四步:环境感知、转化为语言Token、生成驾驶建议、转化为车辆控制轨迹 [69][76] - VLA技术落地的三大关键抓手包括:3D中间表征、长时序记忆、效率/能耗优化 [93] - VLA工程化难点包括:极端工况下的模型稳定性、长尾场景的泛化能力、多源数据的时序同步与时空一致性 [94][97] - VLA技术发展趋势围绕"空间—时间—成本"三条核心路径系统化演进:空间维度向高精度三维语义建模过渡 时间维度发展长时记忆与预测 成本维度通过MoE技术和模型蒸馏实现结构化算力优化 [111] 世界模型技术路线 - 世界模型是一类能够模拟和推演真实环境状态的生成式AI框架 通过对环境物理规律和因果关系的建模 实现对现实世界的"内在理解"与"主动推理" [117] - 世界模型的演进脉络分为三个阶段:Dyna算法奠定理论基础、《World Models》推动进入深度学习阶段、以Dreamer系列为代表的加速落地阶段 [121] - 世界模型在智能驾驶中的四大价值包括:大幅降低数据成本、升级安全标准、提升时空一致性、具备认知推理能力 [127][133] - 世界模型工程化难点包括:长期可扩展内存瓶颈、仿真与现实世界的差异、决策与责任机制缺失、隐私与数据安全挑战 [134][138] - 世界模型未来趋势是与强化学习深度结合 通过在虚拟环境中交互试错 使模型具备主动探索与优化能力 有效降低错误策略导致的安全风险与成本消耗 [144]
行车报漏检了,锅丢给了自动标注。。。
自动驾驶之心· 2025-07-22 15:28
占用网络(OCC)技术 - 占用网络将空间划分成小网格预测每个网格的占用情况 用于解决异形障碍物检测问题 [3] - 核心功能包括建模异形障碍物(如倒地树木 不规则车辆)和路面等背景元素 [4] - 自2022年特斯拉宣布Occupancy Network上车后 已成为纯视觉智驾方案标配 [2] 自动标注技术难点 - 时空一致性要求极高 需在连续帧中精准追踪动态目标运动轨迹 [9] - 多模态数据融合复杂 需同步激光雷达 相机 雷达等多源传感器数据 [9] - 动态场景泛化难度大 交通参与者行为不确定性增加标注模型挑战 [9] - 标注效率与成本矛盾 高精度依赖人工校验但海量数据导致周期长成本高 [9] - 量产场景泛化要求高 需应对不同城市 道路 天气等多样化数据 [9] 自动标注解决方案 - 生成OCC训练真值后 使用计算量更大模型训练生成伪标签 [8] - 质量把控方案包括:2D-3D目标检测一致性 与端侧模型比较 人工标注介入修改后质检 [8] - 自动化标注数据可用于车端模型训练和云端大模型迭代优化 [8] 4D自动标注课程内容 - 课程涵盖动静态 OCC和端到端自动化标注全流程 [10] - 包括动态障碍物检测跟踪 激光视觉SLAM重建 静态元素标注等核心模块 [10][13][14][16] - 重点讲解通用障碍物OCC标注 包括基于lidar和视觉的真值生成方案 [17][18] - 端到端真值生成章节包含动态障碍物 静态元素 可行驶区域等全流程打通 [19] - 数据闭环专题分享行业主流公司架构 痛点及面试准备等实战经验 [21] 行业技术发展 - 占用网络对训练数据标注需求旺盛 尤其需要更昂贵的点云标注 [2] - 业内正推进OCC自动化标注以快速迭代模型泛化性能 [2] - 4D自动标注(3D空间+时间维度)是自动驾驶数据闭环的算法核心 [11]