Workflow
TriMap视频扩散模型
icon
搜索文档
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式
量子位· 2025-07-09 09:18
3D语言场景生成技术突破 - 提出LangScene-X生成式框架,仅需2张图像即可构建3D语言嵌入场景,相比传统NeRF方法所需的20个视角大幅降低输入要求 [2][4] - 攻克传统方法依赖密集视图的痛点,实现多模态信息统一建模,为空间智能领域开辟新路径 [3][5] - 模型能模拟人类认知方式,通过稀疏视觉输入建立融合语言理解的3D空间系统 [4] 传统3D语言场景生成痛点 - 密集视图依赖:传统方法如NeRF在仅2-3张输入时物体边界模糊率超40%,而真实场景获取密集视图成本高昂 [5] - 跨模态割裂:现有方法处理外观/几何/语义时模块独立,导致ScanNet测试中法线与RGB一致性误差达27.3° [6] - 语言特征压缩瓶颈:CLIP的512维特征直接嵌入导致内存占用高,场景切换时文本查询准确率下降58% [7] LangScene-X核心技术方案 - TriMap视频扩散模型:四阶段训练实现RGB/法线/语义协同生成,仅2张输入时法线-RGB误差降至8.1°,语义边界准确率提升63% [8] - 语言量化压缩器(LQC):通过向量量化将CLIP特征压缩为3维索引,重建误差仅0.0001,跨场景迁移无需微调 [10][11] - 语言嵌入表面场:渐进法线正则化使3D表面重建误差显著降低,"冰箱"查询中表面重合度达91.7% [12] 模型架构创新价值 - 单模型统合多模态生成,消除传统模块化流程低效问题,确保3D空间一致性 [14] - 语言量化压缩器实现高维特征跨场景泛化,内存占用减少90% [10][14] - 语言嵌入表面场技术实现文本与3D场景精准对齐,如"stuffed bear"可精确定位关联区域 [15] 实证性能表现 - LERF-OVS数据集上mAcc达80.85%(+31.18%),mIoU达50.52%(+10.58%) [16] - ScanNet数据集mIoU达66.54%,超越现有方法14.92%,分割掩码边界锐利度超越人工标注 [16] 应用前景 - 技术可应用于VR场景构建、人机交互、自动驾驶及具身智能等领域 [18] - 提供底层技术范式,具备成为空间智能核心驱动力的潜力 [18]