核心观点 - 提出首个统一驾驶世界模型HERMES,实现3D场景理解与未来场景生成的协同优化 [1][3] - 通过BEV表示整合多视图空间信息,引入"世界查询"机制桥接理解与生成任务 [3][8] - 在nuScenes和OmniDrive-nuScenes数据集上,生成任务误差降低32.4%,理解任务CIDEr指标提升8.0% [4] 技术框架 核心创新 - BEV-based世界分词器:将多视图图像压缩为统一BEV特征,突破LLM的token长度限制并保留空间关系 [5] - 世界查询机制:从BEV特征初始化查询,通过LLM增强后与未来生成模块交互,实现知识注入 [8][15] - 统一模块设计:共享BEV特征与渲染器,通过"当前到未来链接"模块实现理解与生成的深度协同 [15] 关键组件 - 世界分词器:CLIP图像编码器+BEVFormer处理多视图图像,输出压缩BEV特征 [14] - 渲染器:基于隐式SDF场的可微分体渲染,通过三线性插值预测射线深度 [11][14] - LLM处理:BEV特征投影至语言空间,自回归完成场景描述/VQA等理解任务 [15] 性能表现 定量结果 - 生成任务:3秒内Chamfer距离显著低于4D-Occ和ViDAR [17] - 理解任务:CIDEr指标超过OmniDrive等方法8.0% [17] - 消融实验:世界查询使3秒点云预测误差降低10% [20] 参数优化 - BEV特征尺寸:50×50较25×25在CIDEr和0秒生成任务上分别提升7.3%和10% [23] - 查询初始化:BEV特征最大池化初始化的查询表现最优 [21] 应用场景 - 复杂场景中准确生成未来点云演化(如车辆运动跟踪) [24] - 精准理解场景语义(如识别商业标志物) [24] - 当前局限:复杂转向、遮挡及夜间场景仍有挑战 [24] 行业资源 - 覆盖30+自动驾驶技术栈学习路线(BEV感知、Occupancy、多传感器融合等) [25] - 提供端到端自动驾驶、大模型、仿真测试等专业课程 [28]
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心·2025-07-25 18:47