3D Scene Generation
搜索文档
世界模型可单GPU秒级生成了?腾讯开源FlashWorld,效果惊艳、免费体验
机器之心· 2025-10-30 16:52
技术突破与性能表现 - FlashWorld将三维场景生成速度提升至单卡5-10秒,相比之前方法提速百倍[4] - 生成速度比Marble的快速模式快5倍,且完全通过前端渲染,无需连接后端GPU[6] - 在WorldScore Benchmark中以9秒的最快速度获得最高平均分68.72,优于WonderWorld的66.43分和10秒耗时[23] 技术方法与创新 - 采用基于3D高斯泼溅(3DGS)的技术路线,使结果可在本地网页端实时渲染[8] - 核心创新为通过蒸馏损失将以多视角为中心的教师模型提升以三维为中心的学生模型,兼顾多视角一致性和图像质量[10] - 利用分布匹配蒸馏无需真实数据的特性,使用随机图像、文本和轨迹进行训练,提升模型泛化能力[16] 生成质量与效果 - 支持单张图片或文本输入,生成质量胜过其他同类闭源模型[4] - 能够生成整齐的栅栏和细粒度的毛发细节,这在以往工作中几乎不可能实现[18][21] - 对卡通风格场景具备优秀生成能力,并可在仅RGB监督下自然学习深度信息[24][26] 行业影响与资源获取 - 相关论文在Huggingface Daily Paper榜单位列第一,并获得AI领域多位创始人点赞转发[2] - 作者提供了Huggingface上的免费Demo可供体验,并开源了基于SparkJS的交互式Demo[6][28][29]
上交OccScene:3D OCC生成新框架(TPAMI)
自动驾驶之心· 2025-10-23 08:04
研究背景与核心问题 - 自动驾驶系统研发高度依赖高质量、大规模的标注数据来训练感知模型,但数据获取成本高昂、费时费力[2] - 传统方法将生成模型和感知模型作为两个独立环节处理,导致生成的合成数据可能不符合真实世界的物理规律和几何结构,对下游感知任务价值有限[2] - OccScene旨在解决生成与感知"学用脱节"的问题,实现两者的深度融合[2] 核心创新与贡献 - 首次实现3D场景生成与语义Occupancy感知的深度融合,通过联合扩散框架达到"1+1>2"的效果[3] - 提出范式创新的联合学习框架,感知模型为生成提供精细几何与语义先验,生成的合成数据反哺感知模型,形成良性循环[5] - 设计基于Mamba的双重对齐模块,高效对齐相机轨迹、语义Occupancy与扩散特征,确保生成内容的跨视角一致性和几何精确性[5][14] - 仅需文本提示即可同时生成高质量图像/视频及对应的3D语义占据信息,并能显著提升现有SOTA感知模型性能[5] 技术架构与实现方法 - 采用联合感知-生成扩散框架,将语义Occupancy预测与文本驱动生成统一到单个扩散过程中[8] - 实施两阶段训练策略:第一阶段冻结感知模型权重,训练扩散UNet理解Occupancy几何约束;第二阶段联合优化,同时训练扩散UNet和感知模型实现双向促进[9][10] - 设计动态加权损失函数,通过噪声水平进行动态加权,在去噪早期感知监督权重较低,随着图像变清晰监督权重逐渐增强,确保训练稳定性[11][13] - 推理过程采用独特的闭环自我优化机制,实现"边生成、边感知、边校正",确保最终生成结果的几何一致性和语义准确性[17][19] 性能表现与实验结果 - 在NYUv2室内数据集上,OccScene的FID指标为15.54,显著优于SD的47.82和ControlNet的50.61[21] - 在NuScenes室外数据集上FID为11.87,在SemanticKITTI数据集上FID为19.86,FVD为113.28[21] - 作为数据增强策略可显著提升感知模型性能:在NYUv2数据集上使MonoScene的mIoU从26.94提升至29.78;在SemanticKITTI数据集上使TPVFormer的mIoU从7.8提升至12.2[25] - 消融实验显示联合学习策略相比离线生成,在FID指标上从28.52提升至19.86,mIoU从12.94提升至15.70[27] - Mamba-based MDA模块相比Attention架构推理时间从4.09秒减少至2.76秒,节省32.5%的时间[27] 应用价值与行业影响 - 为自动驾驶仿真生成高保真、多样化的驾驶场景,特别是各种极端场景,以低成本增强系统鲁棒性[32] - 为机器人与AR/VR领域的室内外场景导航、交互提供可控、可编辑的虚拟环境[32] - 作为即插即用的数据生成器,为各类下游3D视觉任务提供高质量训练数据,有效解决数据稀缺问题[32]