单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世
机器之心·2025-10-17 10:11

文章核心观点 - World Labs公司发布名为RTFM的生成式世界模型,该模型可在单个H100 GPU上实时运行,实现3D一致性渲染 [2] - RTFM作为一种学习型渲染器,无需显式构建3D表示,仅通过输入2D图像即可生成新视角的2D图像,模糊了重建与生成的界限 [5][20] - 生成式世界模型被认为是未来渲染和空间智能的关键方向,其计算需求可能超过当今大语言模型,但将受益于计算成本的持续下降 [8][11][14] 技术原理与创新 - RTFM是端到端训练的自回归扩散Transformer,基于大规模视频数据训练,学会建模3D几何、反射、阴影等特征 [5][17] - 模型通过为每一帧建模其在三维空间中的姿态,配合上下文调度机制,实现世界的持久性,解决自回归帧生成模型的记忆挑战 [24][25] - 该技术将输入图像转换为神经网络的激活(KV缓存)以隐式表示世界,通过注意力机制生成与输入视角一致的新视图 [17] 性能与效率突破 - 模型在单个H100 GPU上即可运行,保持交互式帧率,并能提供持久的世界体验 [2][15] - 生成4K分辨率、60帧每秒的交互式视频流需要每秒输出超过10万个token,而保持一小时以上交互一致性需处理超过一亿个token的上下文 [11][12] - 团队设计目标是构建一个足够高效、今天就可部署的模型,并能够随着算力增长持续扩展 [15] 行业意义与发展前景 - 生成式世界模型契合计算成本指数级下降的趋势,将在未来充分受益 [13][14] - 该技术代表了计算机图形学方法的转变,从依赖人工设计的传统3D渲染转向数据驱动的学习型渲染器 [17] - RTFM与Marble空间智能模型结合,可从单幅图像创建3D世界,渲染通过端到端学习而来的复杂效果如光照和反射 [18]