ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
具身智能之心·2025-08-17 00:03
自动驾驶技术发展现状 - 自动驾驶技术需要具备对当前环境的深刻理解能力和对未来场景的准确预测能力[6] - 主流方案通常将环境理解与未来生成任务分开处理[7] - 实际驾驶决策需要两种能力的深度融合[9] HERMES模型核心设计 - 采用统一框架通过共享LLM同时驱动理解与生成任务[12] - 使用鸟瞰图(BEV)作为统一场景表达 解决多视图输入与LLM长度限制问题[15] - 引入世界查询机制实现知识注入和传递 通过当前-未来连接模块打通理解与生成[16] - 采用共享渲染器将BEV特征解码为3D点云序列[17] 技术实现方法 - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征[15] - 通过自适应采样提取世界查询向量代表场景核心信息[16] - 联合训练使用语言建模损失和点云生成损失优化模型[18][19] - 端到端联合训练实现任务间最佳平衡点[20] 性能表现对比 - 3秒未来点云误差降低32.4% 显著优于ViDAR模型[22] - 在nuScenes和OmniDrive-nuScenes数据集上评估表现[22] - CIDEr指标提升8% 超越OmniDrive等专用理解模型[22] - 无需历史序列 推理更高效且泛化能力更强[22] - 生成精度提升显著 理解能力无损[22] 应用场景展示 - 准确预测未来三秒车辆与环境动态[3] - 深度理解当前场景并进行问答交互[3] - 生成时序连贯且几何精确的未来点云[23] - 精准描述驾驶场景细节包括动态物体移动和路边商家识别[23]