模型核心特性 - 推出全新模型RTFM,具备实时运行、持久性和3D一致性,关键优势在于仅需单张H100 GPU即可运行 [1] - 模型设计遵循三大核心原则:效率(单张H100 GPU实现交互级帧率实时推理)、可扩展性(架构能随数据与算力增长而扩展)、持久性(用户可无限时长交互,场景永久留存) [2][3] - 模型通过端到端通用架构从海量视频数据中自主学习,无需依赖显式3D表征即可构建三维世界模型 [2] 行业背景与技术挑战 - 强大的世界模型能实时重建、生成并模拟具有持久性、可交互且物理精确的世界,将彻底改变从媒体到机器人技术等各行各业 [5] - 生成式世界模型对算力的需求将远超当今的大型语言模型,若套用现有视频架构,生成60帧4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理上下文token超1亿个,基于当前计算基础设施既不可行也不经济 [7][8] - 团队深信随算力增长优雅扩展的简洁方法将主导AI领域,因其能享受算力成本指数级下降的红利,生成式世界模型正处在绝佳位置以从中获益 [9] 技术架构与创新 - RTFM基于生成式视频建模突破,训练单一神经网络,输入单张或多张2D图像即可从新视角生成2D图像,全程无需构建任何显式3D表征,模糊了“重建”与“生成”的界限 [12][15] - 模型采用自回归扩散变换器架构作用于帧序列,通过海量视频数据进行端到端训练实现基于历史帧的后续帧预测,可被视为一种可学习的渲染器 [13] - 通过将每一帧建模为在三维空间中具有姿态(位置和方向),并以带有姿态的帧作为空间记忆,使模型具备空间结构的弱先验,实现持久性不受限制 [18][19] - 采用“上下文切换”技术,在生成新帧时从已姿态帧的空间记忆中检索附近帧构建定制上下文,使模型在长时间交互中保持对大型世界的持久记忆,而无需对不断增长的帧集合进行推理 [20] 开发目标与意义 - 团队目标是设计一款足够高效、可立即部署并能随算力提升持续扩展的生成式世界模型,旨在打造仅需单张H100 GPU即可驱动的模型,在保持交互帧率的同时确保虚拟世界永不消散 [10] - 实现上述技术指标旨在让团队提前窥见未来,在当下硬件上体验明日模型可能达到的高度,这一目标深刻影响着从任务设定到模型架构的整个系统设计 [10]
李飞飞发布全新世界模型,单GPU就能跑!
量子位·2025-10-17 09:04