Workflow
生成式世界模型
icon
搜索文档
李飞飞发布全新世界模型,单GPU就能跑!
量子位· 2025-10-17 09:04
模型核心特性 - 推出全新模型RTFM,具备实时运行、持久性和3D一致性,关键优势在于仅需单张H100 GPU即可运行 [1] - 模型设计遵循三大核心原则:效率(单张H100 GPU实现交互级帧率实时推理)、可扩展性(架构能随数据与算力增长而扩展)、持久性(用户可无限时长交互,场景永久留存) [2][3] - 模型通过端到端通用架构从海量视频数据中自主学习,无需依赖显式3D表征即可构建三维世界模型 [2] 行业背景与技术挑战 - 强大的世界模型能实时重建、生成并模拟具有持久性、可交互且物理精确的世界,将彻底改变从媒体到机器人技术等各行各业 [5] - 生成式世界模型对算力的需求将远超当今的大型语言模型,若套用现有视频架构,生成60帧4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理上下文token超1亿个,基于当前计算基础设施既不可行也不经济 [7][8] - 团队深信随算力增长优雅扩展的简洁方法将主导AI领域,因其能享受算力成本指数级下降的红利,生成式世界模型正处在绝佳位置以从中获益 [9] 技术架构与创新 - RTFM基于生成式视频建模突破,训练单一神经网络,输入单张或多张2D图像即可从新视角生成2D图像,全程无需构建任何显式3D表征,模糊了“重建”与“生成”的界限 [12][15] - 模型采用自回归扩散变换器架构作用于帧序列,通过海量视频数据进行端到端训练实现基于历史帧的后续帧预测,可被视为一种可学习的渲染器 [13] - 通过将每一帧建模为在三维空间中具有姿态(位置和方向),并以带有姿态的帧作为空间记忆,使模型具备空间结构的弱先验,实现持久性不受限制 [18][19] - 采用“上下文切换”技术,在生成新帧时从已姿态帧的空间记忆中检索附近帧构建定制上下文,使模型在长时间交互中保持对大型世界的持久记忆,而无需对不断增长的帧集合进行推理 [20] 开发目标与意义 - 团队目标是设计一款足够高效、可立即部署并能随算力提升持续扩展的生成式世界模型,旨在打造仅需单张H100 GPU即可驱动的模型,在保持交互帧率的同时确保虚拟世界永不消散 [10] - 实现上述技术指标旨在让团队提前窥见未来,在当下硬件上体验明日模型可能达到的高度,这一目标深刻影响着从任务设定到模型架构的整个系统设计 [10]
全球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
36氪· 2025-08-22 17:17
行业技术发展 - 开放世界游戏如GTA系列被广泛用作AI训练数据 目标是通过AI生成完整虚拟世界 [1] - AI驱动的视频生成、三维生成和世界模型领域将生成类GTA世界作为长期目标 [1] - 全球首个实时世界模型驱动的AI原生UGC游戏引擎Mirage推出迭代版本Mirage 2 [2] - Mirage 2被定位为生成式世界引擎 不仅适用于游戏 还能创建任何可想象的互动世界 [2] 产品技术特性 - Mirage 2支持图片上传并转换为可交互游戏世界 支持实时对话和文本指令修改 [5] - 新架构实现更灵敏的提示控制 更低的游戏延迟和通用领域建模能力 [5] - 支持多种风格场景生成 包括吉卜力风格村庄、儿童画彩色城市和繁星之夜等 [7][9][11] - 交互时间超过10分钟 延迟水平为200毫秒 可在单个消费级GPU上运行 [11] - 相比Mirage 1的700毫秒推理时间 Mirage 2显著改善至200毫秒 [14] 产品性能表现 - 物体比例问题显著改善 场景理解和精度明显提升 人和车模型更合理 [14] - 在线体验延迟较高 但导出视频流畅 动作控制精度仍需提升 [13][16] - 存在视觉一致性问题 快速切换场景时可能出现细节变化 [16] - 通过提示工程可在较长时间内保持画面一致性 [16] 市场竞争对比 - Mirage 2具备与DeepMind Genie 3竞争的能力 支持跑、跳、攻击等动作 [11] - 相比Genie 3的未知延迟和计算需求 Mirage 2已上线可立即体验 [11][13] - Genie 3在视觉一致性方面表现优于Mirage 2 [17]
SceneDiffuser++:基于生成世界模型的城市规模交通仿真(CVPR'25)
自动驾驶之心· 2025-07-21 19:18
技术突破 - 提出首个端到端生成式世界模型SceneDiffuser++,通过单一损失函数训练实现60秒城市级交通仿真,整合场景生成、代理行为建模、遮挡推理和环境仿真等多项技术 [1][2] - 采用多张量扩散方法,将代理和交通灯等异质元素投影到统一潜在空间,通过Transformer骨干网络进行联合去噪处理,支持异质元素的联合仿真 [4][7] - 引入软剪辑策略稳定稀疏张量生成,避免硬剪辑导致的不自然跳跃,确保代理生成和移除的平滑性,综合性能优于硬剪辑和无剪辑方案 [5][17] 性能表现 - 在WOMD-XLMap数据集上评估,SceneDiffuser++在所有指标上优于IDM和SceneDiffuser,例如当IDM作为规划器时,生成代理数量的JS散度为0.1947,远低于IDM的0.6357和SceneDiffuser的0.7027 [12] - 交通灯状态转换概率与真实数据高度一致,而IDM和SceneDiffuser不支持交通灯仿真,在60秒长时仿真中能保持代理动态性和交通灯合理性 [12][15] - 随仿真时长从30秒增加到300秒,误差累积导致部分指标下降,但代理生成和移除的位置合理性仍保持稳定 [18] 行业应用 - 实现行程级仿真(trip-level),处理更长时间的动态变化,包括初始代理离开视野、新代理无缝进入和交通灯状态随路线动态更新,避免仿真漂移问题 [2][3] - 将不同仿真任务统一为修复任务,包括行为预测和场景生成,通过随机掩码增强模型的可控性,支持公里级路线的长时仿真 [10][11] - 提出CitySim概念,明确生成式仿真城市的需求与挑战,设计统一生成式框架整合代理动态生成、遮挡推理和交通灯仿真 [1][19]