生成式世界模型
搜索文档
World-in-World:约翰霍普金斯 × 北大联合提出闭环下的具身世界模型评估框架!
具身智能之心· 2025-10-26 12:02
文章核心观点 - 当前生成式世界模型的评估体系存在缺陷,过度关注视频生成质量而忽略了其在具身智能任务中的实际决策辅助能力 [1][2] - 约翰・霍普金斯大学和北京大学等团队推出的World-in-World平台首次采用闭环交互方式评估世界模型,将焦点从“画面逼真度”转向“任务实用性” [1][3] - 实验证明,对具身任务而言,模型的动作-预测对齐能力(可控性)比视觉质量更重要,且通过任务数据微调小模型比直接使用大模型更具成本效益 [16][17][18] 评估体系痛点 - 现有评估基准如VBench和WorldModelBench均为开环测试,只评估视频清晰度和场景合理性,不测试模型帮助智能体完成实际任务的能力 [2] - 生成式世界模型技术已能实现分钟级视频生成和动态3D场景变化,但评估体系与具身任务所需的“动作和预测对齐”需求严重脱节 [2] - 在示例中,能生成超清晰画面但动作预测错误的模型A,反而比画面稍模糊但预测精准的模型B获得更高评分,凸显了评估标准的不合理 [2] 平台设计框架 - 平台通过统一动作API解决模型兼容性问题,将智能体的原始动作转换成不同世界模型能理解的格式(如文本提示、相机位姿序列) [6] - 采用三步闭环决策流程:提案阶段生成候选动作序列,模拟阶段预测执行后未来画面,修正阶段根据任务目标评分选择最优方案执行 [7][13] - 决策公式融合了候选动作、预测结果、当前观测和任务目标四要素,确保每一步决策都有依据 [9] 任务测试范围 - 平台选取四类真实具身任务进行测试:主动识别、图像导航、具身问答和机械臂操作 [10][14] - 针对预训练视频生成模型,平台设计了后训练机制,使用任务相关的动作-画面数据进行微调,且训练与测试场景分离防止过拟合 [12] 实验关键发现 - 模型可控性(1-LPIPS衡量)与任务成功率呈正相关,证明“听话”比“好看”更重要 [16] - 1.5B参数的SVD模型经80K数据微调后,主动识别成功率从56.3%提升至61%,而14B参数的Wan2.2模型未微调时成功率低于微调后的SVD [17] - 增加推理时模拟的候选动作数量可提升成功率,SVD模型模拟次数从3次增至11次,主动识别成功率从53.4%升至61%,且平均路径长度缩短12% [20] - 在机械臂操作任务中,表现最佳的SVD模型成功率仅为46.5%,仅比基础策略高2个百分点,暴露出现有模型缺乏物理建模能力的短板 [21][22] 未来发展方向 - 世界模型研发应聚焦提升可控性,确保模型能精准响应动作指令 [23] - 利用少量任务数据微调是低成本提升模型效果的高性价比路径 [17][23] - 需补强物理建模能力,使模型能够理解碰撞、摩擦力等物理规律,以胜任机械臂操作等精细任务 [22][23]
李飞飞发布的单GPU推理世界模型,自动驾驶应用还会远吗?
自动驾驶之心· 2025-10-21 08:06
模型发布与核心特性 - 李飞飞团队推出全新实时世界模型RTFM,该模型具备实时运行、持久性和3D一致性,且仅需单张H100 GPU即可运行 [2][3] - RTFM的设计遵循三大核心原则:效率(单张H100 GPU实现交互级帧率实时推理)、可扩展性(架构可随数据量与算力增长持续扩展)、持久性(用户可无限时长交互且场景永久留存) [5][6] - 模型采用端到端的通用架构,从海量视频数据中自主学习构建三维世界模型,无需依赖显式3D表征 [5] 技术挑战与设计目标 - 生成式世界模型对算力需求巨大,生成60帧4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理上下文token超1亿,基于当前计算基础设施既不可行也不经济 [11][12] - 团队目标是在当前硬件限制下设计一款高效、可立即部署并能随算力提升持续扩展的生成式世界模型,旨在单张H100 GPU上保持交互帧率且虚拟世界永不消散,以预览未来模型潜力 [15] - 团队深信随算力增长优雅扩展的简洁方法将主导AI领域,生成式世界模型将从持续降低的算力成本中获益 [14] 模型架构与工作原理 - RTFM作为可学习的渲染器,通过训练单一神经网络,输入场景的单张或多张2D图像即可从新视角生成2D图像,无需构建任何显式3D表征 [17][19] - 模型采用作用于帧序列的自回归扩散变换器架构,通过海量视频数据端到端训练实现基于历史帧的后续帧预测,输入图像帧被转换为神经网络中的激活以隐式表示整个世界 [19][20] - RTFM模糊了“重建”(在已有视角间插值)与“生成”(创造输入视角中不可见的新内容)的界限,输入视角多时倾向于重建,输入视角少时被迫进行外推生成 [21][22] 持久性实现与空间记忆 - RTFM通过将每一帧建模为在三维空间中具有姿态(位置和方向)来规避自回归帧模型实现持久性的挑战,模型对世界的记忆具有空间结构 [24][26] - 模型使用带有姿态的帧作为空间记忆,提供了一个弱先验——即所建模的世界是三维欧几里得空间,而无需强制显式预测物体的三维几何形状 [26] - 通过“上下文切换”技术,模型在生成新帧时会从已姿态帧的空间记忆中检索附近帧以构建定制上下文,使得RTFM能在长时间交互中保持对大型世界的持久记忆 [27]
李飞飞全新「世界模型」问世,单张H100实时生成3D永恒世界
36氪· 2025-10-17 17:47
产品发布 - 李飞飞World Labs发布实时生成式世界模型RTFM(Real-Time Frame Model)[2] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[3] - 该模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[4] 技术原理 - RTFM不构建世界的显式三维表征,而是接收二维图像输入并从不同视点生成同一场景的全新二维图像[6] - 模型通过学习训练集中的视频,自动掌握了对三维几何、反射、阴影等复杂物理现象的建模能力[9] - RTFM被视为一个"学习型渲染器",其从输入视图到世界表征的转换及渲染机制均通过数据端到端学习获得[46][47] 核心设计原则 - 高效性:单块H100 GPU可实现交互式帧率的实时推理[14] - 可扩展性:模型设计不依赖显式3D表示,能随数据和算力增加而扩展[14] - 持久性:模拟的3D世界具有持久性,不会在用户移开视线时消失[14] 性能表现 - 同一个模型能处理多样场景类型、视觉风格和效果,包括反射、光滑表面、阴影和镜头光晕[23] - 模型利用少量稀疏拍摄的照片即可重建真实世界的具体地点[9] - 通过"上下文调度"技术,RTFM能在大型场景中保持几何形状的持久性且维持高效[64] 行业影响与展望 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[29] - 团队遵循"苦涩的教训",相信能随算力增长而平滑扩展的简单方法将占据主导地位[33] - 未来扩展方向包括模拟动态世界、允许用户互动,以及面向更大推理预算的模型持续性能提升[70][71] 技术挑战 - 生成式世界模型的算力需求极其庞大,若以60fps帧率生成交互式4K视频流,每秒需生成超过10万个token[31] - 维持一小时或更长的交互持久性需要处理超过1亿token的上下文窗口[32] - 以当前计算基础设施而言,大规模应用既不可行也不具备经济效益[33]
“AI教母”李飞飞发布实时生成式世界模型!一张H100就能运行
第一财经· 2025-10-17 14:32
公司技术进展 - 斯坦福大学教授李飞飞创立的World Labs公司发布全新实时生成式世界模型RTFM (Real-Time Frame Model) [3] - RTFM模型具备实时 持续运行且保持3D一致性的特点 亮点是可在单个H100 GPU上运行 [3] - 模型设计围绕效率 可扩展性和持久性三个关键原则 可在很小的GPU上运行并随计算量增加而扩展 [5] - RTFM是基于大规模视频数据端到端训练的自回归扩散Transformer模型 学会了建模3D几何 反射 阴影等特征 [6] - 上个月公司上线了空间智能研究成果Marble 只需一张图片就能生成持久存在的3D世界 [7] 技术优势与行业意义 - 生成式世界模型的算力需求将极其庞大 远超当今的大语言模型 [6] - 采用能够随计算能力提升而平滑扩展的简单方法 可受益于计算成本的指数级下降 [6] - 该技术可赋能创造 设计 学习 AR/VR 机器人等领域 具有广泛应用场景 [8] - 行业认为世界模型可能直接面向内容生产行业 瞄准游戏公司或电影制片厂 [7] - 技术对艺术家 设计师 开发者和工程师等职业群体都有重要意义 [8] 公司背景与融资情况 - 李飞飞于2024年创办World Labs 目标是开发具备空间智能的下一代AI系统 [7] - 公司在短短几月内完成约2.3亿美元(约合人民币16亿元)融资 [7] - 公司估值迅速突破10亿美元(约合70亿元) 成为AI领域最新独角兽企业 [7] - 投资方包括a16z Radical Ventures 英伟达NVentures AMD Ventures和Intel Capital等重量级玩家 [7] 未来发展规划 - 公司旨在开发能够利用图像和其他数据对三维世界进行决策的软件 致力于构建大型世界模型 [8] - 第一阶段将专注于构建对三维性 物理性以及空间和时间概念有深入理解的模型 [9] - 随后将支持增强现实(AR)技术和机器人技术等领域 [9] - 公司计划生成虚拟三维空间 用户可以控制其中的物理等变量 并允许人们创建自己的三维世界 [8]
“AI教母”李飞飞发布实时生成式世界模型!一张H100就能运行
第一财经· 2025-10-17 12:40
公司技术产品RTFM - 斯坦福大学教授李飞飞的创业公司World Labs发布了实时生成式世界模型RTFM,该模型具有实时、持久运行和保持3D一致性的特点[1][3] - RTFM的设计围绕三个关键原则:效率、可扩展性和持久性,使其能在很小的GPU上运行并随计算资源增加而扩展,且构建的世界是永久的[4] - 该模型是一款基于大规模视频数据端到端训练的自回归扩散Transformer,通过观察训练样本学会了建模3D几何、反射和阴影等特征[4] - 团队设定简单目标,最终开发出可高效部署在单个H100 GPU上的模型,无论交互时长均能保持帧率和世界持久性[5] 技术挑战与行业前景 - 生成式世界模型的算力需求将极其庞大,远超当今大语言模型,若用现有架构生成60帧4K交互视频流每秒需超10万个token,持续一小时交互需处理上下文token超1亿[4] - 以当前计算基础设施看,高算力需求既不可行也不经济,团队相信能平滑扩展的简单方法将主导AI领域,因其能受益于计算成本指数级下降[4] - 行业认为世界模型将带来巨大变革,应用远超游戏领域,可能直接面向内容生产行业如游戏公司或电影制片厂[8] - 空间智能技术被李飞飞视为AI领域真正难题,该技术可赋能创造、设计、学习、AR/VR及机器人等广泛领域[9] 公司融资与发展规划 - 李飞飞于2024年创办World Labs,旨在开发具备空间智能的下一代AI系统,公司在短短几月内完成约2.3亿美元(约合人民币16亿元)融资,估值迅速突破10亿美元(约合70亿元)[8] - 公司投资方阵容强大,包括a16z、Radical Ventures、英伟达NVentures、AMD Ventures和Intel Capital等科技与风投界重要玩家[8] - World Labs致力于构建大型世界模型,计划生成虚拟三维空间供用户控制物理等变量,并允许人们创建自己的三维世界,该技术对艺术家、设计师、开发者和工程师等职业群体具有重要意义[9] - 公司未来规划第一阶段专注于构建对三维性、物理性及空间和时间概念有深入理解的模型,随后将支持增强现实技术和机器人技术等领域[10]
单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世
机器之心· 2025-10-17 10:11
文章核心观点 - World Labs公司发布名为RTFM的生成式世界模型,该模型可在单个H100 GPU上实时运行,实现3D一致性渲染 [2] - RTFM作为一种学习型渲染器,无需显式构建3D表示,仅通过输入2D图像即可生成新视角的2D图像,模糊了重建与生成的界限 [5][20] - 生成式世界模型被认为是未来渲染和空间智能的关键方向,其计算需求可能超过当今大语言模型,但将受益于计算成本的持续下降 [8][11][14] 技术原理与创新 - RTFM是端到端训练的自回归扩散Transformer,基于大规模视频数据训练,学会建模3D几何、反射、阴影等特征 [5][17] - 模型通过为每一帧建模其在三维空间中的姿态,配合上下文调度机制,实现世界的持久性,解决自回归帧生成模型的记忆挑战 [24][25] - 该技术将输入图像转换为神经网络的激活(KV缓存)以隐式表示世界,通过注意力机制生成与输入视角一致的新视图 [17] 性能与效率突破 - 模型在单个H100 GPU上即可运行,保持交互式帧率,并能提供持久的世界体验 [2][15] - 生成4K分辨率、60帧每秒的交互式视频流需要每秒输出超过10万个token,而保持一小时以上交互一致性需处理超过一亿个token的上下文 [11][12] - 团队设计目标是构建一个足够高效、今天就可部署的模型,并能够随着算力增长持续扩展 [15] 行业意义与发展前景 - 生成式世界模型契合计算成本指数级下降的趋势,将在未来充分受益 [13][14] - 该技术代表了计算机图形学方法的转变,从依赖人工设计的传统3D渲染转向数据驱动的学习型渲染器 [17] - RTFM与Marble空间智能模型结合,可从单幅图像创建3D世界,渲染通过端到端学习而来的复杂效果如光照和反射 [18]
李飞飞全新「世界模型」问世,单张H100实时生成3D永恒世界
36氪· 2025-10-17 09:48
产品发布 - 李飞飞World Labs发布全新实时生成式世界模型RTFM(Real-Time Frame Model)[1] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[1] - 模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[1][5] 技术原理 - RTFM不构建显式三维表征,而是接收一张或多张二维图像输入,直接从不同视点生成同一场景的全新二维图像[3] - 模型通过观察训练集视频学会对三维几何、反射、阴影等复杂物理现象进行建模[5] - 采用自回归扩散Transformer架构,在帧序列上运行,通过大规模视频数据端到端训练学会预测下一帧[23] - 模型将输入帧转换为神经网络激活值(KV缓存)隐式表征世界,通过注意力机制生成新视图[23] 核心特性 - 高效性:单块H100 GPU可实现交互式帧率的实时推理[5][22] - 可扩展性:设计能随数据和算力增加而扩展,不依赖显式3D表示[5][23] - 持久性:支持无休止交互,模拟的3D世界不会消失[5] - 通过"上下文调度"技术使用带位姿的帧作为空间记忆,在大型场景中保持几何形状持久性[34][37] 应用能力 - 可渲染由单张图像生成的3D场景,处理多样场景类型、视觉风格和效果(包括反射、光滑表面、阴影和镜头光晕)[15] - 能利用少量稀疏拍摄照片重建真实世界具体地点[5] - 打破重建(现有视图间插值)与生成(创造未见新内容)之间的界限[29] - 当提供大量输入视图时倾向于重建,输入视图较少时进行外推和想象[29] 行业意义 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[20] - 解决了长期困扰世界模型可扩展性的问题[16] - 团队遵循"苦涩的教训"理念,设计能随算力增长平滑扩展的简单方法[21] - 当前模型为未来世界模型在当今硬件上部署设定了技术路线[38]
李飞飞发布全新世界模型,单GPU就能跑
36氪· 2025-10-17 09:45
模型技术特点 - 推出全新模型RTFM,具备实时运行、持久性和3D一致性 [1] - 模型效率极高,仅需单张H100 GPU便能以交互级帧率实时完成推理运算 [1] - 架构具备可扩展性,能随数据量与算力增长而持续扩展,通过端到端的通用架构从海量视频数据中自主学习 [1] - 系统构建的持久化3D世界具有持久性,用户可无限时长交互,所有场景将永久留存 [1] - 采用自回归扩散变换器架构,通过海量视频数据进行端到端训练,实现基于历史帧的后续帧预测 [7] - 模型作为可学习的渲染器,无需构建任何显式3D表征即可从新视角生成场景的2D图像 [7] - 通过将每一帧建模为在三维空间中具有姿态,并将带有姿态的帧作为空间记忆使用,实现持久性不受限制 [9] - 采用上下文切换技术,使模型在不同空间区域生成内容时使用不同的上下文帧,无需对不断增长的帧集合进行推理 [10] 行业技术挑战与机遇 - 强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界,将彻底改变从媒体到机器人技术等各行各业 [3] - 生成式世界模型对算力的需求将远超当今的大型语言模型 [5] - 若直接套用现有视频架构,生成60帧的4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理的上下文token更将突破1亿大关 [5] - 生成式世界模型正处在绝佳位置,能从持续降低的算力成本中获益 [6] - 传统3D图形管线依赖人工设计的数据结构与算法,难以随数据量与算力增长实现线性扩展 [7] 研发目标与理念 - 团队目标为设计一款足够高效、可立即部署,并能随算力提升持续扩展的生成式世界模型 [6] - 旨在打造仅需单张H100 GPU即可驱动的模型,在保持交互帧率的同时,确保虚拟世界永不消散 [6] - 团队深信随算力增长优雅扩展的简洁方法终将在AI领域占据主导 [6] - 通过精心优化推理堆栈的每个环节,融合架构设计、模型蒸馏与推理优化的前沿突破,致力于在当今硬件上呈现对未来模型最高保真度预览 [6]
李飞飞发布全新世界模型,单GPU就能跑!
量子位· 2025-10-17 09:04
模型核心特性 - 推出全新模型RTFM,具备实时运行、持久性和3D一致性,关键优势在于仅需单张H100 GPU即可运行 [1] - 模型设计遵循三大核心原则:效率(单张H100 GPU实现交互级帧率实时推理)、可扩展性(架构能随数据与算力增长而扩展)、持久性(用户可无限时长交互,场景永久留存) [2][3] - 模型通过端到端通用架构从海量视频数据中自主学习,无需依赖显式3D表征即可构建三维世界模型 [2] 行业背景与技术挑战 - 强大的世界模型能实时重建、生成并模拟具有持久性、可交互且物理精确的世界,将彻底改变从媒体到机器人技术等各行各业 [5] - 生成式世界模型对算力的需求将远超当今的大型语言模型,若套用现有视频架构,生成60帧4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理上下文token超1亿个,基于当前计算基础设施既不可行也不经济 [7][8] - 团队深信随算力增长优雅扩展的简洁方法将主导AI领域,因其能享受算力成本指数级下降的红利,生成式世界模型正处在绝佳位置以从中获益 [9] 技术架构与创新 - RTFM基于生成式视频建模突破,训练单一神经网络,输入单张或多张2D图像即可从新视角生成2D图像,全程无需构建任何显式3D表征,模糊了“重建”与“生成”的界限 [12][15] - 模型采用自回归扩散变换器架构作用于帧序列,通过海量视频数据进行端到端训练实现基于历史帧的后续帧预测,可被视为一种可学习的渲染器 [13] - 通过将每一帧建模为在三维空间中具有姿态(位置和方向),并以带有姿态的帧作为空间记忆,使模型具备空间结构的弱先验,实现持久性不受限制 [18][19] - 采用“上下文切换”技术,在生成新帧时从已姿态帧的空间记忆中检索附近帧构建定制上下文,使模型在长时间交互中保持对大型世界的持久记忆,而无需对不断增长的帧集合进行推理 [20] 开发目标与意义 - 团队目标是设计一款足够高效、可立即部署并能随算力提升持续扩展的生成式世界模型,旨在打造仅需单张H100 GPU即可驱动的模型,在保持交互帧率的同时确保虚拟世界永不消散 [10] - 实现上述技术指标旨在让团队提前窥见未来,在当下硬件上体验明日模型可能达到的高度,这一目标深刻影响着从任务设定到模型架构的整个系统设计 [10]
全球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
36氪· 2025-08-22 17:17
行业技术发展 - 开放世界游戏如GTA系列被广泛用作AI训练数据 目标是通过AI生成完整虚拟世界 [1] - AI驱动的视频生成、三维生成和世界模型领域将生成类GTA世界作为长期目标 [1] - 全球首个实时世界模型驱动的AI原生UGC游戏引擎Mirage推出迭代版本Mirage 2 [2] - Mirage 2被定位为生成式世界引擎 不仅适用于游戏 还能创建任何可想象的互动世界 [2] 产品技术特性 - Mirage 2支持图片上传并转换为可交互游戏世界 支持实时对话和文本指令修改 [5] - 新架构实现更灵敏的提示控制 更低的游戏延迟和通用领域建模能力 [5] - 支持多种风格场景生成 包括吉卜力风格村庄、儿童画彩色城市和繁星之夜等 [7][9][11] - 交互时间超过10分钟 延迟水平为200毫秒 可在单个消费级GPU上运行 [11] - 相比Mirage 1的700毫秒推理时间 Mirage 2显著改善至200毫秒 [14] 产品性能表现 - 物体比例问题显著改善 场景理解和精度明显提升 人和车模型更合理 [14] - 在线体验延迟较高 但导出视频流畅 动作控制精度仍需提升 [13][16] - 存在视觉一致性问题 快速切换场景时可能出现细节变化 [16] - 通过提示工程可在较长时间内保持画面一致性 [16] 市场竞争对比 - Mirage 2具备与DeepMind Genie 3竞争的能力 支持跑、跳、攻击等动作 [11] - 相比Genie 3的未知延迟和计算需求 Mirage 2已上线可立即体验 [11][13] - Genie 3在视觉一致性方面表现优于Mirage 2 [17]