产品发布 - 李飞飞World Labs发布全新实时生成式世界模型RTFM(Real-Time Frame Model)[1] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[1] - 模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[1][5] 技术原理 - RTFM不构建显式三维表征,而是接收一张或多张二维图像输入,直接从不同视点生成同一场景的全新二维图像[3] - 模型通过观察训练集视频学会对三维几何、反射、阴影等复杂物理现象进行建模[5] - 采用自回归扩散Transformer架构,在帧序列上运行,通过大规模视频数据端到端训练学会预测下一帧[23] - 模型将输入帧转换为神经网络激活值(KV缓存)隐式表征世界,通过注意力机制生成新视图[23] 核心特性 - 高效性:单块H100 GPU可实现交互式帧率的实时推理[5][22] - 可扩展性:设计能随数据和算力增加而扩展,不依赖显式3D表示[5][23] - 持久性:支持无休止交互,模拟的3D世界不会消失[5] - 通过"上下文调度"技术使用带位姿的帧作为空间记忆,在大型场景中保持几何形状持久性[34][37] 应用能力 - 可渲染由单张图像生成的3D场景,处理多样场景类型、视觉风格和效果(包括反射、光滑表面、阴影和镜头光晕)[15] - 能利用少量稀疏拍摄照片重建真实世界具体地点[5] - 打破重建(现有视图间插值)与生成(创造未见新内容)之间的界限[29] - 当提供大量输入视图时倾向于重建,输入视图较少时进行外推和想象[29] 行业意义 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[20] - 解决了长期困扰世界模型可扩展性的问题[16] - 团队遵循"苦涩的教训"理念,设计能随算力增长平滑扩展的简单方法[21] - 当前模型为未来世界模型在当今硬件上部署设定了技术路线[38]
李飞飞全新「世界模型」问世,单张H100实时生成3D永恒世界
36氪·2025-10-17 09:48