文章核心观点 - 西湖大学AGI实验室的研究团队提出了一种名为WorldForge的全新免训练引导框架,旨在解决AI视频生成中可控性与生成质量难以兼得的瓶颈问题 [2][3] - 该框架通过在推理阶段对视频扩散模型进行“即插即用”式的干预,成功实现了从单张静态照片生成360°环绕视频以及对现有视频进行电影级复杂运镜等任务,无需重新训练模型 [3][6][13] 方法概述:免训练引导框架 - WorldForge的核心思想是在生成过程的每一步进行“干预”和“校准”,而非在训练阶段改造模型,通过用户定义的相机轨迹指令确保时空几何一致性 [13] - 框架包含三个关键创新模块:步内递归修正(IRR)、流门控潜在融合(FLF)和双路径自校正引导(DSG) [15][16][17] - IRR模块:通过步内递归优化机制,在每一步推理中先用真实内容替换模型预测的“已知区域”,以增量式校正来精准注入轨迹控制信号,防止轨迹漂移 [15] - FLF模块:在VAE潜在空间中,基于光流相似性区分“运动通道”与“外观通道”,仅向运动通道注入控制信号,实现动静分离以保护画面细节 [16] - DSG策略:利用IRR产生的“即兴创作”(非引导路径)和“精准描摹”(引导路径)两条并行路径,计算差异形成动态校正项,在轨迹精确性与画面质量间取得平衡 [17][18] 技术亮点与应用 - 单图生成360°环绕视图:仅需一张静态照片,即可生成清晰、稳定、几何一致的360°环绕视频,尤其适合以目标为中心的复杂开放场景 [21] - 视频的电影级可控重摄影:用户可为任意视频指定希区柯克变焦、弧形环绕、升降摇移等复杂相机轨迹,WorldForge能稳定“重拍”并自动补全新视角内容,在人脸、动态物体与复杂环境中表现更稳定 [23] - 视频内容的编辑与再创作:框架支持视频去抖与视角切换、物体擦除与添加、主体变换与虚拟试穿等多种编辑功能,保持几何一致性与环境融合 [29] - 免训练特性带来的优势:WorldForge无需训练,作为一个即插即用的模块可灵活迁移至多种主流视频模型,具有卓越的跨域适应性,同时因免去重训与数据筹备而成本友好,降低了高质量3D/4D内容的创作门槛 [31][34] 行业意义与展望 - WorldForge代表了一种新范式,即在不牺牲大模型先验知识、不增加训练成本的前提下,于推理阶段实现对生成过程的精准控制,证明视频模型不仅是内容“生成者”,也能成为听懂指令的“执行者” [32] - 该技术极大地降低了影视预览、游戏开发、数字孪生等领域的高质量3D/4D视觉内容创作门槛 [32] - 展望未来,若将这种精准的时空控制能力与更强的多模态理解(如语言、草图)相结合,有望实现通过口头描述或简单勾画就能导演AI生成的“时空大片”,为通往“可控世界模型”提供了一条前景光明的技术路径 [32]
西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
具身智能之心·2025-09-24 08:04