李飞飞全新「世界模型」问世，单张H100实时生成3D永恒世界

产品发布 - 李飞飞World Labs发布全新实时生成式世界模型RTFM（Real-Time Frame Model）[1] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[1] - 模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[1][5] 技术原理 - RTFM不构建显式三维表征，而是接收一张或多张二维图像输入，直接从不同视点生成同一场景的全新二维图像[3] - 模型通过观察训练集视频学会对三维几何、反射、阴影等复杂物理现象进行建模[5] - 采用自回归扩散Transformer架构，在帧序列上运行，通过大规模视频数据端到端训练学会预测下一帧[23] - 模型将输入帧转换为神经网络激活值（KV缓存）隐式表征世界，通过注意力机制生成新视图[23] 核心特性 - 高效性：单块H100 GPU可实现交互式帧率的实时推理[5][22] - 可扩展性：设计能随数据和算力增加而扩展，不依赖显式3D表示[5][23] - 持久性：支持无休止交互，模拟的3D世界不会消失[5] - 通过"上下文调度"技术使用带位姿的帧作为空间记忆，在大型场景中保持几何形状持久性[34][37] 应用能力 - 可渲染由单张图像生成的3D场景，处理多样场景类型、视觉风格和效果（包括反射、光滑表面、阴影和镜头光晕）[15] - 能利用少量稀疏拍摄照片重建真实世界具体地点[5] - 打破重建（现有视图间插值）与生成（创造未见新内容）之间的界限[29] - 当提供大量输入视图时倾向于重建，输入视图较少时进行外推和想象[29] 行业意义 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[20] - 解决了长期困扰世界模型可扩展性的问题[16] - 团队遵循"苦涩的教训"理念，设计能随算力增长平滑扩展的简单方法[21] - 当前模型为未来世界模型在当今硬件上部署设定了技术路线[38]