WorldGrow
搜索文档
华为世界模型来了,单卡30分钟生成272㎡场景
36氪· 2025-10-28 15:32
里面的虚拟人还能顺畅导航,不带迷路的。(小声说:大平层确实需要导航) 并且场景具备连贯的几何拓扑和照片级真实感外观,智能体的导航则是在复杂空间布局中自主规划路径。 这可以说是走到哪建到哪了,那场景是怎么搭的? AI大house真来了。 华为联合上海交通大学、华中科技大学推出了世界模型WordGrow,可以生成1800㎡超大室内场景(19x39块),单卡30分钟就跑了272㎡。 具备连贯的几何拓扑和照片级真实感外观 以前想造个像样的3D大场景,坑不少。 比如有些技术先靠2D模型画张图,再硬掰成3D,结果换完视角一看,沙发腿歪了、墙壁纹理断了…… 还有一些方法最多只能造单个房间,扩展成套房就卡壳; 更离谱的是没有布局逻辑——出现冰箱塞进卧室,床摆在厨房的情况。 现在,WorldGrow来搞装修了(bushi),用三个核心技术填坑。 第一步是先做数据精准预处理,从3D-FRONT这类大规模数据集里提取优质样本,用Blender执行场景切片,通过布尔交集对场景进行区块切分,再靠 occupancy检测确保区块内容密度(可见内容≥95%)。 同时,构建了粗、细两个数据集,粗块来确定宏观布局,细块保留纹理细节。 第二步靠 ...
华为世界模型来了!单卡30分钟生成272㎡场景
量子位· 2025-10-28 13:12
技术突破 - 华为联合上海交通大学、华中科技大学推出世界模型WorldGrow,可生成1800㎡超大室内场景(19x39块),单卡30分钟生成272㎡ [1] - 生成场景具备连贯几何拓扑和照片级真实感外观,虚拟人可在复杂空间布局中自主规划路径且不迷路 [3][4] - 技术解决了传统方法视角转换导致的物体变形(如沙发腿歪斜)、纹理断裂、扩展性差及布局逻辑混乱(如冰箱塞进卧室)等问题 [7] 核心技术流程 - 数据精准预处理:从3D-FRONT数据集提取优质样本,通过Blender进行场景切片和区块切分,利用occupancy检测确保区块内容密度≥95%,并构建粗/细两级数据集分别控制宏观布局与纹理细节 [10] - 3D块补全机制:通过结构生成器确定3D框架,latent生成器重建结构化潜变量特征,结合带噪潜变量、二进制掩码等输入消除边缘断裂和纹理错位,实现无缝拼接 [11] - 粗到精生成策略:粗结构模型先规划窗户朝向、走廊连接等整体布局,再通过三线性插值上采样匹配细块分辨率,由细结构生成器补全家具纹理等细节 [12] 性能优势 - 在3D-FRONT数据集上,几何重建指标MMD(0.97×10²)、COV(51.82%)达SOTA水平,FID指标低至7.52,显著优于SynCity(FID 51.97)、BlockFusion等主流方法 [15][16][17] - 单张A100显卡30分钟生成10×10区块(约272㎡),速度达同类技术6倍,扩展至7×7块超大场景时边缘质量仍保持稳定 [16]