Workflow
李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU
36氪·2025-10-17 16:03

技术核心与创新 - 公司发布名为RTFM的全新实时世界生成模型,可从单张静态图片实时渲染出可供自由探索和交互的3D场景[1][4] - 该模型采用类似Sora的“自回归扩散Transformer”架构,不构建任何显式的3D模型,而是通过端到端学习海量视频数据来直接预测新视角画面[9] - 模型核心创新在于引入“空间记忆”机制,为每一帧画面赋予3D空间中的精确姿态,并通过“上下文杂耍”技术仅调用局部参考帧,以维持世界持久性而不显著增加计算负担[11] 性能与效率突破 - 模型经过架构、蒸馏和推理过程的极致优化,设计目标为在现有硬件上运行明日模型,成功实现在单块H100 GPU上以交互式帧率进行实时推理和生成[1][8] - 实时生成4K 60fps交互视频流对算力要求极高,每秒需处理token量约等于一本《哈利·波特》文字量,持续一小时的交互需处理超1亿个token,当前基础设施难以负担[6] - 该技术路线相比传统3D引擎的显式建模方法,能更好地利用增长的数据和算力,实现无限扩展[9][11] 应用与演示现状 - 模型已作为研究预览版正式发布,并提供了名为FRAMEBOY的Demo供体验,其逼真的光影、反射和阴影效果在实时交互中呈现[1][3] - 当前Demo体验时间限制为3分钟,3分钟后世界状态无法维持,展示了模型在空间智能和持续交互方面的探索方向[13] - 该技术被视作通往AGI空间智能方向的重要一步,其单GPU高效运行的特性为未来世界模型的普及提供了可能性[13][15]