可控世界模型
搜索文档
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
机器之心· 2025-09-23 11:16
行业技术瓶颈与现有方案 - AI视频生成在真实感上进步显著,但可控性仍是主要瓶颈,模型难以精准执行如影视、游戏开发等领域所需的复杂“导演指令”[2] - 现有技术路线存在缺陷:通过微调模型实现控制所需算力昂贵,且易损害模型内在的“世界知识”,导致生成质量下降[2] - 另一现有策略“扭曲-重绘”方法,其引导信号带有的噪点和伪影会误导模型,造成几何结构错乱和细节失真[2] WorldForge框架核心创新 - 西湖大学AGI实验室提出名为WorldForge的全新框架,以“即插即用”的推理时引导方式,在不改动模型权重的前提下,为视频扩散模型实现精准控制[3] - 框架核心思想是在生成过程的每一步进行“干预”和“校准”,通过用户定义的相机轨迹作为指令,确保模型在发挥创造力的同时严格遵守时空几何一致性[11] - 第一个关键创新是步内递归修正模块,该模块在每一步推理中,先让模型自由预测,然后用真实内容替换画面中的“已知区域”,通过增量式逐步校正来注入轨迹控制信号,避免轨迹漂移[13] - 第二个关键创新是流门控潜在融合模块,该模块基于光流相似性区分潜在空间中的“运动通道”和“外观通道”,仅向运动通道注入控制信号,从而保护外观细节不被干扰[14] - 第三个关键创新是双路径自校正引导策略,它利用引导路径与非引导路径的差异形成动态校正项,将引导路径的结果向非引导路径的高质量解拉近,以平衡轨迹精确性与画面质量[15] WorldForge的技术亮点与应用 - 能够实现单图到360°世界生成,仅需一张静态照片即可生成清晰、稳定、几何一致的360°环绕视频,无需先做全景中间件,更适合以目标为中心的复杂场景[19] - 能够实现电影级视频轨迹重运镜,用户可为任意视频指定希区柯克变焦、弧形环绕等复杂轨迹,模型能稳定“重拍”并自动补全新视角内容,在人脸、动态物体与复杂环境中表现更稳定[20] - 具备视频内容编辑与再创作能力,包括在保持几何一致性的前提下去除视频抖动并平滑切换机位、智能识别并移除或添加画面物体、灵活替换人物主体或特定区域内容以及为人物虚拟试穿[25] - 框架具备无需训练的特性,这意味着其作为一个即插即用的模块能够灵活迁移并应用于多种主流视频模型,无需针对性训练[27] - 该框架泛化能力强,具有卓越的跨域适应性,无论是真实摄影、艺术创作还是AI生成素材都能稳定适配[29] - 该框架成本友好,免去了重新训练与数据筹备,降低了高质量3D/4D内容的创作门槛[29] 技术意义与行业前景 - WorldForge代表了一种新范式,即在不牺牲大模型先验知识、不增加训练成本的前提下,于推理阶段实现对生成过程的精准控制[28] - 该技术证明视频模型不仅能作为内容“生成者”,更能成为听懂指令的“执行者”,极大地降低了影视预览、游戏开发、数字孪生等领域的高质量3D/4D视觉内容创作门槛[28] - 展望未来,当这种精准的时空控制能力与更强的多模态理解相结合,将可能实现仅通过口头描述或简单勾画就能导演由AI生成的“时空大片”,为通往“可控世界模型”提供了前景光明的技术路径[28]