学习端到端大模型，还不太明白VLM和VLA的区别。。。

视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地，VLM（视觉语言模型）和VLA（视觉语言动作模型）成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理，VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA，VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息，已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块：技术分类汇总、顶级学者直播、求职资源、问题解答，形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区，已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集视觉大语言模型 - 汇总10个Awesome资源库，涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption（2011年1M图文）发展到LAION5B（2022年5B图文） [13] - 自动驾驶专用数据集包括NuScenes（2020年多模态）、Waymo Open Dataset（2020年）等19个主流数据集 [19] 关键技术应用智能交通系统 - 2022-2023年出现多模态车辆检索系统，支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD（2023）通过视觉语言自监督提升行人检测 [22] - OpenScene（2023）实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver（2023）、DRIVEVLM（2024）等模型将LLM融入运动规划 [23] - 扩散模型应用显著，如DiffusionDrive（端到端驾驶）、MagicDriveDiT（高分辨率视频生成） [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型，实现4D场景理解与高保真可控生成 [30] - 核心突破包括：InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文，跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD（稀疏query范式）、GenAD（新范式）等2024年新方法提升性能25% [46]