WorldForge
搜索文档
西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
具身智能之心· 2025-09-24 08:04
文章核心观点 - 西湖大学AGI实验室的研究团队提出了一种名为WorldForge的全新免训练引导框架,旨在解决AI视频生成中可控性与生成质量难以兼得的瓶颈问题 [2][3] - 该框架通过在推理阶段对视频扩散模型进行“即插即用”式的干预,成功实现了从单张静态照片生成360°环绕视频以及对现有视频进行电影级复杂运镜等任务,无需重新训练模型 [3][6][13] 方法概述:免训练引导框架 - WorldForge的核心思想是在生成过程的每一步进行“干预”和“校准”,而非在训练阶段改造模型,通过用户定义的相机轨迹指令确保时空几何一致性 [13] - 框架包含三个关键创新模块:步内递归修正(IRR)、流门控潜在融合(FLF)和双路径自校正引导(DSG) [15][16][17] - **IRR模块**:通过步内递归优化机制,在每一步推理中先用真实内容替换模型预测的“已知区域”,以增量式校正来精准注入轨迹控制信号,防止轨迹漂移 [15] - **FLF模块**:在VAE潜在空间中,基于光流相似性区分“运动通道”与“外观通道”,仅向运动通道注入控制信号,实现动静分离以保护画面细节 [16] - **DSG策略**:利用IRR产生的“即兴创作”(非引导路径)和“精准描摹”(引导路径)两条并行路径,计算差异形成动态校正项,在轨迹精确性与画面质量间取得平衡 [17][18] 技术亮点与应用 - **单图生成360°环绕视图**:仅需一张静态照片,即可生成清晰、稳定、几何一致的360°环绕视频,尤其适合以目标为中心的复杂开放场景 [21] - **视频的电影级可控重摄影**:用户可为任意视频指定希区柯克变焦、弧形环绕、升降摇移等复杂相机轨迹,WorldForge能稳定“重拍”并自动补全新视角内容,在人脸、动态物体与复杂环境中表现更稳定 [23] - **视频内容的编辑与再创作**:框架支持视频去抖与视角切换、物体擦除与添加、主体变换与虚拟试穿等多种编辑功能,保持几何一致性与环境融合 [29] - **免训练特性带来的优势**:WorldForge无需训练,作为一个即插即用的模块可灵活迁移至多种主流视频模型,具有卓越的跨域适应性,同时因免去重训与数据筹备而成本友好,降低了高质量3D/4D内容的创作门槛 [31][34] 行业意义与展望 - WorldForge代表了一种新范式,即在不牺牲大模型先验知识、不增加训练成本的前提下,于推理阶段实现对生成过程的精准控制,证明视频模型不仅是内容“生成者”,也能成为听懂指令的“执行者” [32] - 该技术极大地降低了影视预览、游戏开发、数字孪生等领域的高质量3D/4D视觉内容创作门槛 [32] - 展望未来,若将这种精准的时空控制能力与更强的多模态理解(如语言、草图)相结合,有望实现通过口头描述或简单勾画就能导演AI生成的“时空大片”,为通往“可控世界模型”提供了一条前景光明的技术路径 [32]
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
机器之心· 2025-09-23 11:16
行业技术瓶颈与现有方案 - AI视频生成在真实感上进步显著,但可控性仍是主要瓶颈,模型难以精准执行如影视、游戏开发等领域所需的复杂“导演指令”[2] - 现有技术路线存在缺陷:通过微调模型实现控制所需算力昂贵,且易损害模型内在的“世界知识”,导致生成质量下降[2] - 另一现有策略“扭曲-重绘”方法,其引导信号带有的噪点和伪影会误导模型,造成几何结构错乱和细节失真[2] WorldForge框架核心创新 - 西湖大学AGI实验室提出名为WorldForge的全新框架,以“即插即用”的推理时引导方式,在不改动模型权重的前提下,为视频扩散模型实现精准控制[3] - 框架核心思想是在生成过程的每一步进行“干预”和“校准”,通过用户定义的相机轨迹作为指令,确保模型在发挥创造力的同时严格遵守时空几何一致性[11] - 第一个关键创新是步内递归修正模块,该模块在每一步推理中,先让模型自由预测,然后用真实内容替换画面中的“已知区域”,通过增量式逐步校正来注入轨迹控制信号,避免轨迹漂移[13] - 第二个关键创新是流门控潜在融合模块,该模块基于光流相似性区分潜在空间中的“运动通道”和“外观通道”,仅向运动通道注入控制信号,从而保护外观细节不被干扰[14] - 第三个关键创新是双路径自校正引导策略,它利用引导路径与非引导路径的差异形成动态校正项,将引导路径的结果向非引导路径的高质量解拉近,以平衡轨迹精确性与画面质量[15] WorldForge的技术亮点与应用 - 能够实现单图到360°世界生成,仅需一张静态照片即可生成清晰、稳定、几何一致的360°环绕视频,无需先做全景中间件,更适合以目标为中心的复杂场景[19] - 能够实现电影级视频轨迹重运镜,用户可为任意视频指定希区柯克变焦、弧形环绕等复杂轨迹,模型能稳定“重拍”并自动补全新视角内容,在人脸、动态物体与复杂环境中表现更稳定[20] - 具备视频内容编辑与再创作能力,包括在保持几何一致性的前提下去除视频抖动并平滑切换机位、智能识别并移除或添加画面物体、灵活替换人物主体或特定区域内容以及为人物虚拟试穿[25] - 框架具备无需训练的特性,这意味着其作为一个即插即用的模块能够灵活迁移并应用于多种主流视频模型,无需针对性训练[27] - 该框架泛化能力强,具有卓越的跨域适应性,无论是真实摄影、艺术创作还是AI生成素材都能稳定适配[29] - 该框架成本友好,免去了重新训练与数据筹备,降低了高质量3D/4D内容的创作门槛[29] 技术意义与行业前景 - WorldForge代表了一种新范式,即在不牺牲大模型先验知识、不增加训练成本的前提下,于推理阶段实现对生成过程的精准控制[28] - 该技术证明视频模型不仅能作为内容“生成者”,更能成为听懂指令的“执行者”,极大地降低了影视预览、游戏开发、数字孪生等领域的高质量3D/4D视觉内容创作门槛[28] - 展望未来,当这种精准的时空控制能力与更强的多模态理解相结合,将可能实现仅通过口头描述或简单勾画就能导演由AI生成的“时空大片”,为通往“可控世界模型”提供了前景光明的技术路径[28]
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界
量子位· 2025-09-21 14:36
文章核心观点 - 西湖大学AGI实验室提出的WorldForge框架通过推理时引导策略实现视频生成的高精度时空控制 绕开传统微调或重训模型的高成本路径 为可控世界模型提供新研究方向 [1][8][14] 技术原理与架构 - 采用步内递归修正(IRR)模块 通过预测-校正微循环在去噪过程中逐步消除轨迹偏离 确保生成内容遵循预设运动轨迹 [4][5] - 流门控潜在融合(FLF)模块通过光流得分分离运动与外观特征 将轨迹信号精准注入高运动相关度通道 避免破坏画面质感 [6] - 双路径自校正引导(DSG)模块利用引导路径与非引导路径的输出差异生成校正项 同时保证轨迹精确性与画面质量稳定 [7] 应用场景与性能 - 支持单视图生成3D静态场景 仅需一张照片即可重建三维场景并生成360°环绕视频 [9] - 实现视频电影级重运镜 允许用户自由设计镜头轨迹智能补全新视角场景 效果领先需大量训练的SOTA模型 [11] - 具备视频内容二次创作能力 包括主体替换、物体擦除/添加及虚拟试穿等编辑功能 [12] 行业意义与创新 - 为视频生成领域提供不修改模型权重、即插即用的引导策略 降低技术与资源门槛 [1][14] - 通过推理时引导结构化模型内部世界知识 为可控世界模型构建开辟低训练成本新路径 [8][14]