Workflow
TUM最新!全面梳理自动驾驶基础模型:LLM/VLM/MLLM/扩散模型和世界模型一网打尽~
自动驾驶之心·2025-07-29 08:52

自动驾驶基础模型综述 - 文章全面梳理了自动驾驶中LLM/VLM/MLLM/扩散模型和世界模型的最新工作,系统总结了相关数据集和BenchMark [1][2] - 基础模型在复杂驾驶场景合成与解读方面展现出强大潜力,可处理异构输入如自然语言、传感器数据等 [2][9] - 综述提出了统一分类体系,涵盖LLMs、VLMs、MLLMs、DMs和WMs在自动驾驶场景生成与分析中的应用 [2][14] 技术发展现状 - Waymo等公司已实现SAE四级自动驾驶商业化,2025年每周可提供25万次载客服务 [7] - 基于仿真的场景测试成为关键验证方法,可复现真实数据集中缺失的边缘案例 [8][21] - 基础模型通过大规模预训练获得通用知识,能高效适应特定AD任务 [9][10] 模型应用进展 - LLMs在场景评估中依赖高消耗提示词,新兴推理模型可能实现更高效零样本评估 [30] - VLMs通过BEV特征提取、VQA执行等技术应用于感知和预测任务 [34][36] - DMs通过前向加噪和反向去噪过程生成高质量场景样本 [42][44] 数据集与工具 - nuScenes和Waymo Open成为最具影响力的数据集,分别被引用52次和19次 [51] - CARLA、MetaDrive等仿真平台在研究中被广泛使用 [53] - 行业已建立多个基准挑战赛推动技术进步,如CARLA AD Challenge等 [54] 未来研究方向 - 需提升生成场景的真实性,将物理模型与数据驱动方法结合 [55] - 应开发专门针对罕见事件的生成方法,建立针对性数据集 [55] - 需创建多模态融合的大规模数据集,解决当前可扩展性问题 [56] - 行业亟需开发标准化评估指标和KPI体系 [56]