视频世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

视频世界模型

搜索文档

SSM+扩散模型，竟造出一种全新的「视频世界模型」

机器之心· 2025-05-31 12:00

研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术，开发出新型视频世界模型，实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制，难以维持长期一致性，导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案，配合局部注意力机制，显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式，确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法：将token序列分解为(b_h,b_w,T)块，通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块，采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理：通过MLP处理连续动作值，直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案：保持随机长度前缀完全无噪声，强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态，实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长，显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧)：SSIM达0.898，显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧)：SSIM达0.855，优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧)：SSIM达0.454，优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域，而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展，推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]

状态空间模型（SSM）

视频世界模型

注意力机制

状态空间模型（SSM）

视频世界模型

注意力机制