模型技术特点 - 推出全新模型RTFM,具备实时运行、持久性和3D一致性 [1] - 模型效率极高,仅需单张H100 GPU便能以交互级帧率实时完成推理运算 [1] - 架构具备可扩展性,能随数据量与算力增长而持续扩展,通过端到端的通用架构从海量视频数据中自主学习 [1] - 系统构建的持久化3D世界具有持久性,用户可无限时长交互,所有场景将永久留存 [1] - 采用自回归扩散变换器架构,通过海量视频数据进行端到端训练,实现基于历史帧的后续帧预测 [7] - 模型作为可学习的渲染器,无需构建任何显式3D表征即可从新视角生成场景的2D图像 [7] - 通过将每一帧建模为在三维空间中具有姿态,并将带有姿态的帧作为空间记忆使用,实现持久性不受限制 [9] - 采用上下文切换技术,使模型在不同空间区域生成内容时使用不同的上下文帧,无需对不断增长的帧集合进行推理 [10] 行业技术挑战与机遇 - 强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界,将彻底改变从媒体到机器人技术等各行各业 [3] - 生成式世界模型对算力的需求将远超当今的大型语言模型 [5] - 若直接套用现有视频架构,生成60帧的4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理的上下文token更将突破1亿大关 [5] - 生成式世界模型正处在绝佳位置,能从持续降低的算力成本中获益 [6] - 传统3D图形管线依赖人工设计的数据结构与算法,难以随数据量与算力增长实现线性扩展 [7] 研发目标与理念 - 团队目标为设计一款足够高效、可立即部署,并能随算力提升持续扩展的生成式世界模型 [6] - 旨在打造仅需单张H100 GPU即可驱动的模型,在保持交互帧率的同时,确保虚拟世界永不消散 [6] - 团队深信随算力增长优雅扩展的简洁方法终将在AI领域占据主导 [6] - 通过精心优化推理堆栈的每个环节,融合架构设计、模型蒸馏与推理优化的前沿突破,致力于在当今硬件上呈现对未来模型最高保真度预览 [6]
李飞飞发布全新世界模型,单GPU就能跑