单块GPU上跑出实时3D宇宙，李飞飞世界模型新成果震撼问世

文章核心观点 - World Labs公司发布名为RTFM的生成式世界模型，该模型可在单个H100 GPU上实时运行，实现3D一致性渲染 [2] - RTFM作为一种学习型渲染器，无需显式构建3D表示，仅通过输入2D图像即可生成新视角的2D图像，模糊了重建与生成的界限 [5][20] - 生成式世界模型被认为是未来渲染和空间智能的关键方向，其计算需求可能超过当今大语言模型，但将受益于计算成本的持续下降 [8][11][14] 技术原理与创新 - RTFM是端到端训练的自回归扩散Transformer，基于大规模视频数据训练，学会建模3D几何、反射、阴影等特征 [5][17] - 模型通过为每一帧建模其在三维空间中的姿态，配合上下文调度机制，实现世界的持久性，解决自回归帧生成模型的记忆挑战 [24][25] - 该技术将输入图像转换为神经网络的激活（KV缓存）以隐式表示世界，通过注意力机制生成与输入视角一致的新视图 [17] 性能与效率突破 - 模型在单个H100 GPU上即可运行，保持交互式帧率，并能提供持久的世界体验 [2][15] - 生成4K分辨率、60帧每秒的交互式视频流需要每秒输出超过10万个token，而保持一小时以上交互一致性需处理超过一亿个token的上下文 [11][12] - 团队设计目标是构建一个足够高效、今天就可部署的模型，并能够随着算力增长持续扩展 [15] 行业意义与发展前景 - 生成式世界模型契合计算成本指数级下降的趋势，将在未来充分受益 [13][14] - 该技术代表了计算机图形学方法的转变，从依赖人工设计的传统3D渲染转向数据驱动的学习型渲染器 [17] - RTFM与Marble空间智能模型结合，可从单幅图像创建3D世界，渲染通过端到端学习而来的复杂效果如光照和反射 [18]