ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
机器之心·2025-08-14 12:57
研究背景与动机 - 自动驾驶技术需要两大核心能力:对当前环境的深刻理解(识别交通参与者、理解交通规则)和未来场景的准确预测(预测行人、车辆运动)[7] - 当前主流方案将"理解"和"生成"分开处理,但实际决策需要两种能力深度融合[8][10] - 构建统一模型面临挑战:高分辨率环视图像输入LLM的token限制、理解与生成任务相互促进机制、世界知识与场景预测的集成[11] HERMES框架设计 - 采用共享LLM同时驱动理解与生成任务,通过BEV(鸟瞰图)作为统一场景表达[13][18] - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征,保留空间几何关系和语义细节[18] - 引入世界查询机制:通过自适应采样提取场景核心信息Token,实现知识注入与传递[19] - 联合训练优化:语言建模损失(Next Token Prediction)和点云生成损失(L1损失)[21][22] 技术优势与性能 - 未来生成任务:3秒未来点云误差降低32.4%,Chamfer Distance显著优于ViDAR[31] - 场景理解任务:CIDEr指标提升8%,超越OmniDrive等专用模型[31] - 统一建模效果:生成精度显著提升且理解能力无损,验证框架有效性[31] - 无需历史序列即可实现高效推理,展现强泛化能力[31] 应用表现 - 能准确预测未来三秒车辆与环境动态(如货车轨迹),同时深度理解当前场景(识别"星巴克"并描述路况)[4] - 生成时序连贯且几何精确的未来点云,精准描述驾驶场景细节(动态物体移动预测、路边商家识别)[27]