世界生成模型

搜索文档
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性
机器之心· 2025-05-11 11:20
研究背景 - 基于视频生成模型的可交互世界生成近期受到广泛关注,但长时序一致性仍是未解决的挑战[1][5] - 谷歌Genie 2、阿里The Matrix、Meta Navigation World Models等现有方法在生成质量与交互性上有进展,但长时一致性问题突出[5] - 传统方法在视角转换时场景内容会显著变化,缺乏连续性[6][7] 模型创新 - WorldMem通过引入记忆机制(记忆库+贪心检索+融合模块)实现长时序一致生成[8][18][19] - 记忆库持续存储关键历史信息(图像帧+位姿/时间戳),采用贪心匹配算法高效检索[18][21] - 记忆融合模块通过跨注意力机制动态关联历史与当前帧,增强空间一致性[20][22] - 状态嵌入设计(位姿Plücker坐标+时间MLP映射)提升时空表达精度[25] 技术实现 - 基于Oasis和Conditional DiT构建生成主干,采用Diffusion Forcing训练策略[17] - 记忆读写模块支持历史信息存取,记忆融合模块引导当前生成[15][19] - 相对嵌入机制和帧独立检索策略优化信息利用效率[22][25] 性能表现 - 在Minecraft数据集上: - 短时生成PSNR达27.01,超越Diffusion Forcing的26.56[24] - 长时生成(300帧)PSNR保持25.32,显著优于基线方法的18.04[24][26] - rFID指标降至15.37,远低于基线51.28[24] - 支持动态交互(如雪地放置南瓜灯融化积雪、种植作物生长过程)[13][31] - 真实场景验证显示记忆机制增强一致性[33] 行业应用 - 视频生成模型(如WAN 2.1、Hunyuan)展示出复杂环境仿真潜力[36] - 交互式视频生成模型有望成为虚拟仿真、交互智能领域的核心技术[37][38] - WorldMem为构建持久、交互式虚拟世界提供关键技术路径[38]