Workflow
WorldForge
icon
搜索文档
西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
具身智能之心· 2025-09-24 08:04
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 "导演指令"。我们能否让 AI 做到: 这些需求在影视制作、游戏开发、虚拟现实等领域至关重要,但实现起来却困难重重。现有的技术路线往往顾此失彼:要么通过 微调(Fine-tuning) 模型来实 现,但所需算力昂贵,且易损害模型内在的 "世界知识",导致生成质量下降;要么采用 "扭曲 - 重绘"(Warp-and-Repaint) 的策略,但引导信号带有的噪点和 伪影,往往会误导模型,造成几何结构错乱和细节失真。 有没有第三条路?一条既能实现精准控制,又不牺牲生成质量,还无需重新训练的优雅路径? 西湖大学 AGI 实验室 的研究团队给出了他们的答案。他们提出了名为 Wo rld Forge 的全新框架,以一种 "即插即用" 的推理时引导方式,在不改动任何权重的前 提下,为视频 ...
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
机器之心· 2025-09-23 11:16
有没有第三条路?一条既能实现精准控制,又不牺牲生成质量,还无需重新训练的优雅路径? 西湖大学 AGI 实验室 的研究团队给出了他们的答案。他们提出了名为 Wo rld Forge 的全新框架,以一种 "即插即用" 的推理时引导方式,在不改动任何权重的前 提下,为视频扩散模型装上了一个 "导演大脑",成功实现了单图到 360° 世界生成和电影级视频轨迹重运镜。 自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 "导演指令"。我们能否让 AI 做到: 这些需求在影视制作、游戏开发、虚拟现实等领域至关重要,但实现起来却困难重重。现有的技术路线往往顾此失彼:要么通过 微调(Fine-tuning) 模型来实 现,但所需算力昂贵,且易损害模型内在的 "世界知识",导致生成质量下降;要么采用 "扭曲 - 重绘"(Warp-and-Repaint) 的策略,但引导信号带有的噪点和伪 影,往往会误导模型,造成几何结构错乱和细节失真。 本文第一作者宋晨曦,现为西湖大学 AGI 实验室博士后研究员,研究方向为 3D/4D 场景重建与可控生成。指导老师为西湖大学助理教 ...
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界
量子位· 2025-09-21 14:36
文章核心观点 - 西湖大学AGI实验室提出的WorldForge框架通过推理时引导策略实现视频生成的高精度时空控制 绕开传统微调或重训模型的高成本路径 为可控世界模型提供新研究方向 [1][8][14] 技术原理与架构 - 采用步内递归修正(IRR)模块 通过预测-校正微循环在去噪过程中逐步消除轨迹偏离 确保生成内容遵循预设运动轨迹 [4][5] - 流门控潜在融合(FLF)模块通过光流得分分离运动与外观特征 将轨迹信号精准注入高运动相关度通道 避免破坏画面质感 [6] - 双路径自校正引导(DSG)模块利用引导路径与非引导路径的输出差异生成校正项 同时保证轨迹精确性与画面质量稳定 [7] 应用场景与性能 - 支持单视图生成3D静态场景 仅需一张照片即可重建三维场景并生成360°环绕视频 [9] - 实现视频电影级重运镜 允许用户自由设计镜头轨迹智能补全新视角场景 效果领先需大量训练的SOTA模型 [11] - 具备视频内容二次创作能力 包括主体替换、物体擦除/添加及虚拟试穿等编辑功能 [12] 行业意义与创新 - 为视频生成领域提供不修改模型权重、即插即用的引导策略 降低技术与资源门槛 [1][14] - 通过推理时引导结构化模型内部世界知识 为可控世界模型构建开辟低训练成本新路径 [8][14]