Workflow
实时帧模型)
icon
搜索文档
李飞飞全新「世界模型」问世,单张H100实时生成3D永恒世界
36氪· 2025-10-17 17:47
产品发布 - 李飞飞World Labs发布实时生成式世界模型RTFM(Real-Time Frame Model)[2] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[3] - 该模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[4] 技术原理 - RTFM不构建世界的显式三维表征,而是接收二维图像输入并从不同视点生成同一场景的全新二维图像[6] - 模型通过学习训练集中的视频,自动掌握了对三维几何、反射、阴影等复杂物理现象的建模能力[9] - RTFM被视为一个"学习型渲染器",其从输入视图到世界表征的转换及渲染机制均通过数据端到端学习获得[46][47] 核心设计原则 - 高效性:单块H100 GPU可实现交互式帧率的实时推理[14] - 可扩展性:模型设计不依赖显式3D表示,能随数据和算力增加而扩展[14] - 持久性:模拟的3D世界具有持久性,不会在用户移开视线时消失[14] 性能表现 - 同一个模型能处理多样场景类型、视觉风格和效果,包括反射、光滑表面、阴影和镜头光晕[23] - 模型利用少量稀疏拍摄的照片即可重建真实世界的具体地点[9] - 通过"上下文调度"技术,RTFM能在大型场景中保持几何形状的持久性且维持高效[64] 行业影响与展望 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[29] - 团队遵循"苦涩的教训",相信能随算力增长而平滑扩展的简单方法将占据主导地位[33] - 未来扩展方向包括模拟动态世界、允许用户互动,以及面向更大推理预算的模型持续性能提升[70][71] 技术挑战 - 生成式世界模型的算力需求极其庞大,若以60fps帧率生成交互式4K视频流,每秒需生成超过10万个token[31] - 维持一小时或更长的交互持久性需要处理超过1亿token的上下文窗口[32] - 以当前计算基础设施而言,大规模应用既不可行也不具备经济效益[33]
李飞飞全新「世界模型」问世,单张H100实时生成3D永恒世界
36氪· 2025-10-17 09:48
产品发布 - 李飞飞World Labs发布全新实时生成式世界模型RTFM(Real-Time Frame Model)[1] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[1] - 模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[1][5] 技术原理 - RTFM不构建显式三维表征,而是接收一张或多张二维图像输入,直接从不同视点生成同一场景的全新二维图像[3] - 模型通过观察训练集视频学会对三维几何、反射、阴影等复杂物理现象进行建模[5] - 采用自回归扩散Transformer架构,在帧序列上运行,通过大规模视频数据端到端训练学会预测下一帧[23] - 模型将输入帧转换为神经网络激活值(KV缓存)隐式表征世界,通过注意力机制生成新视图[23] 核心特性 - 高效性:单块H100 GPU可实现交互式帧率的实时推理[5][22] - 可扩展性:设计能随数据和算力增加而扩展,不依赖显式3D表示[5][23] - 持久性:支持无休止交互,模拟的3D世界不会消失[5] - 通过"上下文调度"技术使用带位姿的帧作为空间记忆,在大型场景中保持几何形状持久性[34][37] 应用能力 - 可渲染由单张图像生成的3D场景,处理多样场景类型、视觉风格和效果(包括反射、光滑表面、阴影和镜头光晕)[15] - 能利用少量稀疏拍摄照片重建真实世界具体地点[5] - 打破重建(现有视图间插值)与生成(创造未见新内容)之间的界限[29] - 当提供大量输入视图时倾向于重建,输入视图较少时进行外推和想象[29] 行业意义 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[20] - 解决了长期困扰世界模型可扩展性的问题[16] - 团队遵循"苦涩的教训"理念,设计能随算力增长平滑扩展的简单方法[21] - 当前模型为未来世界模型在当今硬件上部署设定了技术路线[38]