Workflow
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界
量子位·2025-09-21 14:36

文章核心观点 - 西湖大学AGI实验室提出的WorldForge框架通过推理时引导策略实现视频生成的高精度时空控制 绕开传统微调或重训模型的高成本路径 为可控世界模型提供新研究方向 [1][8][14] 技术原理与架构 - 采用步内递归修正(IRR)模块 通过预测-校正微循环在去噪过程中逐步消除轨迹偏离 确保生成内容遵循预设运动轨迹 [4][5] - 流门控潜在融合(FLF)模块通过光流得分分离运动与外观特征 将轨迹信号精准注入高运动相关度通道 避免破坏画面质感 [6] - 双路径自校正引导(DSG)模块利用引导路径与非引导路径的输出差异生成校正项 同时保证轨迹精确性与画面质量稳定 [7] 应用场景与性能 - 支持单视图生成3D静态场景 仅需一张照片即可重建三维场景并生成360°环绕视频 [9] - 实现视频电影级重运镜 允许用户自由设计镜头轨迹智能补全新视角场景 效果领先需大量训练的SOTA模型 [11] - 具备视频内容二次创作能力 包括主体替换、物体擦除/添加及虚拟试穿等编辑功能 [12] 行业意义与创新 - 为视频生成领域提供不修改模型权重、即插即用的引导策略 降低技术与资源门槛 [1][14] - 通过推理时引导结构化模型内部世界知识 为可控世界模型构建开辟低训练成本新路径 [8][14]