李飞飞全新「世界模型」问世，单张H100实时生成3D永恒世界

产品发布 - 李飞飞World Labs发布实时生成式世界模型RTFM（Real-Time Frame Model）[2] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[3] - 该模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[4] 技术原理 - RTFM不构建世界的显式三维表征，而是接收二维图像输入并从不同视点生成同一场景的全新二维图像[6] - 模型通过学习训练集中的视频，自动掌握了对三维几何、反射、阴影等复杂物理现象的建模能力[9] - RTFM被视为一个"学习型渲染器"，其从输入视图到世界表征的转换及渲染机制均通过数据端到端学习获得[46][47] 核心设计原则 - 高效性：单块H100 GPU可实现交互式帧率的实时推理[14] - 可扩展性：模型设计不依赖显式3D表示，能随数据和算力增加而扩展[14] - 持久性：模拟的3D世界具有持久性，不会在用户移开视线时消失[14] 性能表现 - 同一个模型能处理多样场景类型、视觉风格和效果，包括反射、光滑表面、阴影和镜头光晕[23] - 模型利用少量稀疏拍摄的照片即可重建真实世界的具体地点[9] - 通过"上下文调度"技术，RTFM能在大型场景中保持几何形状的持久性且维持高效[64] 行业影响与展望 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[29] - 团队遵循"苦涩的教训"，相信能随算力增长而平滑扩展的简单方法将占据主导地位[33] - 未来扩展方向包括模拟动态世界、允许用户互动，以及面向更大推理预算的模型持续性能提升[70][71] 技术挑战 - 生成式世界模型的算力需求极其庞大，若以60fps帧率生成交互式4K视频流，每秒需生成超过10万个token[31] - 维持一小时或更长的交互持久性需要处理超过1亿token的上下文窗口[32] - 以当前计算基础设施而言，大规模应用既不可行也不具备经济效益[33]