LatticeWorld框架
搜索文档
工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」
机器之心· 2025-09-21 13:26
核心观点 - 提出一个名为LatticeWorld的革命性多模态框架,通过将轻量级大语言模型(LLaMA-2-7B)与工业级渲染引擎(虚幻引擎5)无缝融合,实现从文本描述或草图到高仿真、可交互3D虚拟世界的端到端自动生成 [4][6] - 该框架将传统手工3D场景制作的效率提升了超过90倍,总制作时间从55天缩短至不到0.6天,为游戏、影视、自动驾驶仿真及具身智能等领域带来突破性解决方案 [4][31] 技术框架与核心组件 - **框架核心思想**:利用大语言模型处理场景布局与环境配置的生成,构建多模态输入融合机制,通过结构化中间结果(符号化场景布局和JSON参数)驱动渲染引擎生成最终3D世界 [9] - **场景布局生成模块**:创新性地将复杂空间布局转换为32x32的符号矩阵进行表示(如F代表森林,W代表水体),并序列化为大语言模型可处理的字符串,以保持空间关系完整性 [12] - **环境配置生成模块**:基于生成的布局,进一步生成包含**场景属性**(粗粒度如季节、天气,细粒度如资产材质、密度)和**智能体参数**(类别、数量、行为、位置)的JSON格式配置 [16] - **程序化渲染管线模块**:通过解码器和转译系统,将符号化布局和JSON配置转换为虚幻引擎5可读的多通道灰度图像和原生属性格式,实现自动化渲染 [18] 技术实现细节 - **多模态视觉融合**:利用预训练的CLIP视觉编码器提取地形高度图或草图特征,并通过专门设计的CNN投影网络映射到大语言模型的词嵌入空间,实现文本与视觉信息的融合 [13] - **三阶段训练范式**:包括CLIP微调、投影网络持续预训练以及端到端微调,使用交叉熵损失联合优化投影网络和LLaMA-2-7B模型 [14] - **高质量数据集构建**:构建了两个数据集用于训练:包含8,236个实例的固定高度场景数据集(LoveDA)和包含24,380个实例的可变高度荒野地形数据集(Wild),并利用GPT-4o进行数据标注与增强 [19][20] 性能评估与对比 - **场景布局生成能力**:在固定高度(仅文本)和可变高度(草图/高度图)条件下,LatticeWorld在生成准确布局方面优于GPT-4o、Claude 3.7 Sonnet、DeepSeek-R1及Qwen2-VL-Max等主流模型 [22] - **环境生成与属性控制**:框架能够依据不同的文本描述,有效调整整个场景的环境属性(如艺术风格、季节、天气),生成多样化的自然环境 [27][28] - **动态智能体生成**:支持通过文本描述生成包含类型、数量、分布和行为的智能体参数配置,并能在生成的3D世界中实现基于预定义规则的自主对抗行为(如追逐、攻击) [29] - **效率革命性提升**:与专业艺术家手工创作对比,在完成相同布局和参数指令的任务时,LatticeWorld将总制作时间从55天大幅降低到不足0.6天,效率提升超过90倍 [31] 应用前景与未来方向 - **行业应用**:该技术对需要高质量3D虚拟世界的领域意义重大,包括作为**具身智能和自动驾驶**的仿真与训练基础设施,以及支撑**游戏开发和影视制作**的逼真沉浸体验 [5] - **未来扩展**:潜在发展方向包括设计更丰富的对抗智能体行为策略、支持多玩家控制和AI算法策略、实现智能体身体部位的精细化独立控制,以及扩充资产库以生成更多样的虚拟世界 [35]