模型发布与核心特性 - 李飞飞团队推出全新实时世界模型RTFM,该模型具备实时运行、持久性和3D一致性,且仅需单张H100 GPU即可运行 [2][3] - RTFM的设计遵循三大核心原则:效率(单张H100 GPU实现交互级帧率实时推理)、可扩展性(架构可随数据量与算力增长持续扩展)、持久性(用户可无限时长交互且场景永久留存) [5][6] - 模型采用端到端的通用架构,从海量视频数据中自主学习构建三维世界模型,无需依赖显式3D表征 [5] 技术挑战与设计目标 - 生成式世界模型对算力需求巨大,生成60帧4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理上下文token超1亿,基于当前计算基础设施既不可行也不经济 [11][12] - 团队目标是在当前硬件限制下设计一款高效、可立即部署并能随算力提升持续扩展的生成式世界模型,旨在单张H100 GPU上保持交互帧率且虚拟世界永不消散,以预览未来模型潜力 [15] - 团队深信随算力增长优雅扩展的简洁方法将主导AI领域,生成式世界模型将从持续降低的算力成本中获益 [14] 模型架构与工作原理 - RTFM作为可学习的渲染器,通过训练单一神经网络,输入场景的单张或多张2D图像即可从新视角生成2D图像,无需构建任何显式3D表征 [17][19] - 模型采用作用于帧序列的自回归扩散变换器架构,通过海量视频数据端到端训练实现基于历史帧的后续帧预测,输入图像帧被转换为神经网络中的激活以隐式表示整个世界 [19][20] - RTFM模糊了“重建”(在已有视角间插值)与“生成”(创造输入视角中不可见的新内容)的界限,输入视角多时倾向于重建,输入视角少时被迫进行外推生成 [21][22] 持久性实现与空间记忆 - RTFM通过将每一帧建模为在三维空间中具有姿态(位置和方向)来规避自回归帧模型实现持久性的挑战,模型对世界的记忆具有空间结构 [24][26] - 模型使用带有姿态的帧作为空间记忆,提供了一个弱先验——即所建模的世界是三维欧几里得空间,而无需强制显式预测物体的三维几何形状 [26] - 通过“上下文切换”技术,模型在生成新帧时会从已姿态帧的空间记忆中检索附近帧以构建定制上下文,使得RTFM能在长时间交互中保持对大型世界的持久记忆 [27]
李飞飞发布的单GPU推理世界模型,自动驾驶应用还会远吗?
自动驾驶之心·2025-10-21 08:06