生成式AI - 财报，业绩电话会，研报，新闻

生成式AI

搜索文档

工业级3D世界构建提速90倍！全新框架LatticeWorld让虚拟世界「一句话成真」

机器之心· 2025-09-21 13:26

核心观点 - 提出一个名为LatticeWorld的革命性多模态框架，通过将轻量级大语言模型（LLaMA-2-7B）与工业级渲染引擎（虚幻引擎5）无缝融合，实现从文本描述或草图到高仿真、可交互3D虚拟世界的端到端自动生成 [4][6] - 该框架将传统手工3D场景制作的效率提升了超过90倍，总制作时间从55天缩短至不到0.6天，为游戏、影视、自动驾驶仿真及具身智能等领域带来突破性解决方案 [4][31] 技术框架与核心组件 - **框架核心思想**：利用大语言模型处理场景布局与环境配置的生成，构建多模态输入融合机制，通过结构化中间结果（符号化场景布局和JSON参数）驱动渲染引擎生成最终3D世界 [9] - **场景布局生成模块**：创新性地将复杂空间布局转换为32x32的符号矩阵进行表示（如F代表森林，W代表水体），并序列化为大语言模型可处理的字符串，以保持空间关系完整性 [12] - **环境配置生成模块**：基于生成的布局，进一步生成包含**场景属性**（粗粒度如季节、天气，细粒度如资产材质、密度）和**智能体参数**（类别、数量、行为、位置）的JSON格式配置 [16] - **程序化渲染管线模块**：通过解码器和转译系统，将符号化布局和JSON配置转换为虚幻引擎5可读的多通道灰度图像和原生属性格式，实现自动化渲染 [18] 技术实现细节 - **多模态视觉融合**：利用预训练的CLIP视觉编码器提取地形高度图或草图特征，并通过专门设计的CNN投影网络映射到大语言模型的词嵌入空间，实现文本与视觉信息的融合 [13] - **三阶段训练范式**：包括CLIP微调、投影网络持续预训练以及端到端微调，使用交叉熵损失联合优化投影网络和LLaMA-2-7B模型 [14] - **高质量数据集构建**：构建了两个数据集用于训练：包含8,236个实例的固定高度场景数据集（LoveDA）和包含24,380个实例的可变高度荒野地形数据集（Wild），并利用GPT-4o进行数据标注与增强 [19][20] 性能评估与对比 - **场景布局生成能力**：在固定高度（仅文本）和可变高度（草图/高度图）条件下，LatticeWorld在生成准确布局方面优于GPT-4o、Claude 3.7 Sonnet、DeepSeek-R1及Qwen2-VL-Max等主流模型 [22] - **环境生成与属性控制**：框架能够依据不同的文本描述，有效调整整个场景的环境属性（如艺术风格、季节、天气），生成多样化的自然环境 [27][28] - **动态智能体生成**：支持通过文本描述生成包含类型、数量、分布和行为的智能体参数配置，并能在生成的3D世界中实现基于预定义规则的自主对抗行为（如追逐、攻击） [29] - **效率革命性提升**：与专业艺术家手工创作对比，在完成相同布局和参数指令的任务时，LatticeWorld将总制作时间从55天大幅降低到不足0.6天，效率提升超过90倍 [31] 应用前景与未来方向 - **行业应用**：该技术对需要高质量3D虚拟世界的领域意义重大，包括作为**具身智能和自动驾驶**的仿真与训练基础设施，以及支撑**游戏开发和影视制作**的逼真沉浸体验 [5] - **未来扩展**：潜在发展方向包括设计更丰富的对抗智能体行为策略、支持多玩家控制和AI算法策略、实现智能体身体部位的精细化独立控制，以及扩充资产库以生成更多样的虚拟世界 [35]