Workflow
HERMES
icon
搜索文档
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
具身智能之心· 2025-08-17 00:03
自动驾驶技术发展现状 - 自动驾驶技术需要具备对当前环境的深刻理解能力和对未来场景的准确预测能力[6] - 主流方案通常将环境理解与未来生成任务分开处理[7] - 实际驾驶决策需要两种能力的深度融合[9] HERMES模型核心设计 - 采用统一框架通过共享LLM同时驱动理解与生成任务[12] - 使用鸟瞰图(BEV)作为统一场景表达 解决多视图输入与LLM长度限制问题[15] - 引入世界查询机制实现知识注入和传递 通过当前-未来连接模块打通理解与生成[16] - 采用共享渲染器将BEV特征解码为3D点云序列[17] 技术实现方法 - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征[15] - 通过自适应采样提取世界查询向量代表场景核心信息[16] - 联合训练使用语言建模损失和点云生成损失优化模型[18][19] - 端到端联合训练实现任务间最佳平衡点[20] 性能表现对比 - 3秒未来点云误差降低32.4% 显著优于ViDAR模型[22] - 在nuScenes和OmniDrive-nuScenes数据集上评估表现[22] - CIDEr指标提升8% 超越OmniDrive等专用理解模型[22] - 无需历史序列 推理更高效且泛化能力更强[22] - 生成精度提升显著 理解能力无损[22] 应用场景展示 - 准确预测未来三秒车辆与环境动态[3] - 深度理解当前场景并进行问答交互[3] - 生成时序连贯且几何精确的未来点云[23] - 精准描述驾驶场景细节包括动态物体移动和路边商家识别[23]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
机器之心· 2025-08-14 12:57
研究背景与动机 - 自动驾驶技术需要两大核心能力:对当前环境的深刻理解(识别交通参与者、理解交通规则)和未来场景的准确预测(预测行人、车辆运动)[7] - 当前主流方案将"理解"和"生成"分开处理,但实际决策需要两种能力深度融合[8][10] - 构建统一模型面临挑战:高分辨率环视图像输入LLM的token限制、理解与生成任务相互促进机制、世界知识与场景预测的集成[11] HERMES框架设计 - 采用共享LLM同时驱动理解与生成任务,通过BEV(鸟瞰图)作为统一场景表达[13][18] - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征,保留空间几何关系和语义细节[18] - 引入世界查询机制:通过自适应采样提取场景核心信息Token,实现知识注入与传递[19] - 联合训练优化:语言建模损失(Next Token Prediction)和点云生成损失(L1损失)[21][22] 技术优势与性能 - 未来生成任务:3秒未来点云误差降低32.4%,Chamfer Distance显著优于ViDAR[31] - 场景理解任务:CIDEr指标提升8%,超越OmniDrive等专用模型[31] - 统一建模效果:生成精度显著提升且理解能力无损,验证框架有效性[31] - 无需历史序列即可实现高效推理,展现强泛化能力[31] 应用表现 - 能准确预测未来三秒车辆与环境动态(如货车轨迹),同时深度理解当前场景(识别"星巴克"并描述路况)[4] - 生成时序连贯且几何精确的未来点云,精准描述驾驶场景细节(动态物体移动预测、路边商家识别)[27]
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心· 2025-07-25 18:47
核心观点 - 提出首个统一驾驶世界模型HERMES,实现3D场景理解与未来场景生成的协同优化 [1][3] - 通过BEV表示整合多视图空间信息,引入"世界查询"机制桥接理解与生成任务 [3][8] - 在nuScenes和OmniDrive-nuScenes数据集上,生成任务误差降低32.4%,理解任务CIDEr指标提升8.0% [4] 技术框架 核心创新 - BEV-based世界分词器:将多视图图像压缩为统一BEV特征,突破LLM的token长度限制并保留空间关系 [5] - 世界查询机制:从BEV特征初始化查询,通过LLM增强后与未来生成模块交互,实现知识注入 [8][15] - 统一模块设计:共享BEV特征与渲染器,通过"当前到未来链接"模块实现理解与生成的深度协同 [15] 关键组件 - **世界分词器**:CLIP图像编码器+BEVFormer处理多视图图像,输出压缩BEV特征 [14] - **渲染器**:基于隐式SDF场的可微分体渲染,通过三线性插值预测射线深度 [11][14] - **LLM处理**:BEV特征投影至语言空间,自回归完成场景描述/VQA等理解任务 [15] 性能表现 定量结果 - 生成任务:3秒内Chamfer距离显著低于4D-Occ和ViDAR [17] - 理解任务:CIDEr指标超过OmniDrive等方法8.0% [17] - 消融实验:世界查询使3秒点云预测误差降低10% [20] 参数优化 - BEV特征尺寸:50×50较25×25在CIDEr和0秒生成任务上分别提升7.3%和10% [23] - 查询初始化:BEV特征最大池化初始化的查询表现最优 [21] 应用场景 - 复杂场景中准确生成未来点云演化(如车辆运动跟踪) [24] - 精准理解场景语义(如识别商业标志物) [24] - 当前局限:复杂转向、遮挡及夜间场景仍有挑战 [24] 行业资源 - 覆盖30+自动驾驶技术栈学习路线(BEV感知、Occupancy、多传感器融合等) [25] - 提供端到端自动驾驶、大模型、仿真测试等专业课程 [28]