西湖大学发布世界模型WorldForge，让普通视频模型秒变「世界引擎」

文章核心观点 - 西湖大学AGI实验室的研究团队提出了一种名为WorldForge的全新免训练引导框架，旨在解决AI视频生成中可控性与生成质量难以兼得的瓶颈问题 [2][3] - 该框架通过在推理阶段对视频扩散模型进行“即插即用”式的干预，成功实现了从单张静态照片生成360°环绕视频以及对现有视频进行电影级复杂运镜等任务，无需重新训练模型 [3][6][13] 方法概述：免训练引导框架 - WorldForge的核心思想是在生成过程的每一步进行“干预”和“校准”，而非在训练阶段改造模型，通过用户定义的相机轨迹指令确保时空几何一致性 [13] - 框架包含三个关键创新模块：步内递归修正（IRR）、流门控潜在融合（FLF）和双路径自校正引导（DSG） [15][16][17] - IRR模块：通过步内递归优化机制，在每一步推理中先用真实内容替换模型预测的“已知区域”，以增量式校正来精准注入轨迹控制信号，防止轨迹漂移 [15] - FLF模块：在VAE潜在空间中，基于光流相似性区分“运动通道”与“外观通道”，仅向运动通道注入控制信号，实现动静分离以保护画面细节 [16] - DSG策略：利用IRR产生的“即兴创作”（非引导路径）和“精准描摹”（引导路径）两条并行路径，计算差异形成动态校正项，在轨迹精确性与画面质量间取得平衡 [17][18] 技术亮点与应用 - 单图生成360°环绕视图：仅需一张静态照片，即可生成清晰、稳定、几何一致的360°环绕视频，尤其适合以目标为中心的复杂开放场景 [21] - 视频的电影级可控重摄影：用户可为任意视频指定希区柯克变焦、弧形环绕、升降摇移等复杂相机轨迹，WorldForge能稳定“重拍”并自动补全新视角内容，在人脸、动态物体与复杂环境中表现更稳定 [23] - 视频内容的编辑与再创作：框架支持视频去抖与视角切换、物体擦除与添加、主体变换与虚拟试穿等多种编辑功能，保持几何一致性与环境融合 [29] - 免训练特性带来的优势：WorldForge无需训练，作为一个即插即用的模块可灵活迁移至多种主流视频模型，具有卓越的跨域适应性，同时因免去重训与数据筹备而成本友好，降低了高质量3D/4D内容的创作门槛 [31][34] 行业意义与展望 - WorldForge代表了一种新范式，即在不牺牲大模型先验知识、不增加训练成本的前提下，于推理阶段实现对生成过程的精准控制，证明视频模型不仅是内容“生成者”，也能成为听懂指令的“执行者” [32] - 该技术极大地降低了影视预览、游戏开发、数字孪生等领域的高质量3D/4D视觉内容创作门槛 [32] - 展望未来，若将这种精准的时空控制能力与更强的多模态理解（如语言、草图）相结合，有望实现通过口头描述或简单勾画就能导演AI生成的“时空大片”，为通往“可控世界模型”提供了一条前景光明的技术路径 [32]