4D占据空间预测

搜索文档
超越SOTA近40%!西交I2-World:超强OCC世界模型实现3G训练显存37 FPS推理~
自动驾驶之心· 2025-07-16 19:11
核心观点 - 西安交通大学团队提出I2-World框架,在4D OCC世界模型预测任务中实现SOTA性能,mIoU和IoU分别比现有方法提升25 1%和36 9% [1][9] - 该框架采用创新的I2-Scene Tokenizer解耦场景内/间分词化,结合I2-Former编码器-解码器架构,在保持3D分词器计算效率的同时实现4D时间建模能力 [5][7] - 系统计算效率突出:训练显存仅需2 9GB,推理速度达37FPS,显著优于依赖大语言模型或扩散模型的现有方案 [9][28] 技术架构 I2-Scene Tokenizer - 采用双分词器设计:场景内分词器通过多尺度残差量化保留空间细节,场景间分词器通过内存队列建模时间动态 [5][14] - 与传统单阶段分词器相比,仅增加轻量级卷积层即可实现性能提升,特征图压缩率与3D分词器相当但保留4D动态 [15][16] - 训练采用VAE流程,损失函数包含加权焦点损失、Lovasz损失和向量量化损失,仅监督场景内分词化以稳定训练 [12][18] I2-Former架构 - 突破传统GPT式自回归模型,采用编码器-解码器设计:场景内编码器通过交叉注意力聚合空间上下文,场景间解码器维护历史标记队列保证时间一致性 [6][19] - 引入变换矩阵作为条件信号,将场景状态映射到下一时间步,支持通过自车动作嵌入进行精细控制 [6][21] - 训练损失包含特征级MSE损失和变换矩阵分解监督,对不同预测帧施加差异化权重 [23] 性能表现 基准测试 - 在Occ3D-nuScenes数据集上,I2-World-O变体mIoU达39 73%,IoU达49 8%,分别超越前SOTA方法25 1%和36 9% [28] - 端到端I2-World-STC变体在mIoU指标上比OccWorld-STC提升50 9%,验证框架在相机输入场景的适应性 [28] - Waymo数据集零样本测试显示,在10Hz采样率下mIoU达43 73%,2Hz下仍保持36 38%,展现强泛化能力 [30][31] 效率指标 - 训练内存消耗仅2 9GB,较UniScene等方案降低60%以上,推理速度37FPS满足实时性要求 [9][28] - 消融实验显示,完整架构比无条件基线提升mIoU 22 61个百分点,而GPU内存仅增加1 11GB [36] 应用价值 - 变换矩阵设计支持双重控制策略:高层通过速度/转向命令控制轨迹,底层直接操作空间变换矩阵实现米级精度生成 [24][40] - 可视化验证显示在复杂交互场景中能准确仿真移动目标运动,如右转命令引发的卡车碰撞场景 [38][40] - 在Occ3D-Waymo的自动标注测试中性能显著优于复制粘贴基线,展现工业落地潜力 [31]