生成式世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

生成式世界模型

搜索文档

网易美股盘前下跌，管理层称市场误解了谷歌模型对游戏行业的影响

第一财经· 2026-02-11 22:16

2025年第四季度及全年财务表现 - 2025年第四季度公司营收为275亿元人民币，同比增长3% [1] - 2025年第四季度归属于公司股东的净利润为62亿元人民币，相比去年同期的88亿元下降近30%，不及市场预期 [1] - 2025年全年总营收为1126亿元人民币，同比增长约7% [3] - 2025年全年归属于公司股东的净利润为338亿元人民币，同比增长13.8% [3] - 2025年第四季度销售及市场费用为38.9亿元人民币，相比2024年同期增加约10.7亿元 [2] - 2025年第四季度投资亏损达到16.7亿元人民币，相比去年同期大增约12亿元 [2] - 2025年第四季度汇兑损失超5亿元 [2] - 截至2025年底公司净现金余额为1635亿元人民币，2024年底为1315亿元 [7] - 2025年全年经营活动净现金流入为507亿元人民币，2024年为397亿元 [7] 分业务板块收入情况 - 2025年第四季度游戏及相关增值服务收入为220亿元人民币，同比增长3.4%，占总营收比例为80% [4] - 老牌旗舰《梦幻西游》以及《第五人格》等长线产品支撑了业绩底座 [4] - 新游《燕云十六声》和《漫威争锋》的上线为收入增长提供了增量 [4] - 暴雪系列游戏回归中国市场后创下了年度收入新高 [4] - 2025年第四季度网易有道收入为16亿元人民币，同比增加16.8% [4] - 2025年第四季度网易云音乐收入为20亿元人民币，同比增加4.7% [4] - 2025年第四季度创新及其他业务净收入为20亿元人民币，同比减少10.4% [4] 管理层对业绩与前景的解读 - 第四季度销售费用同比增长，主要因前一年反腐特殊期基数较低，以及当期有新游戏上线的宣发需求 [4] - 第四季度业绩可能受手游表现较弱影响，这也是近期股价持续回调的原因之一 [4] - 年底《燕云十六声》手游周年庆表现亮眼、《蛋仔派对》热度反弹，预计将对第一季度收入有超预期的支撑 [4] 管理层对AI影响游戏行业的观点 - 管理层认为市场很大程度上误解了谷歌Genie 3模型对游戏行业的影响 [5][6] - AI降低了游戏制作的准入门槛，但同时极大拔高了头部产品的成功门槛 [6] - 对于商业化大作，核心壁垒已从单纯产能转化为整合能力，例如将AI技术与复杂的数值体系、经济系统及社交生态融合 [6] - 世界模型更大的意义在于催生区别于传统游戏的全新娱乐类型，但离实际应用还有很远距离 [6] - 当前游戏基于确定性构建，而世界模型是概率性的，具有高度不确定性和控制难度，目前并不适合于传统游戏 [6]

生成式世界模型

《燕云十六声》

《蛋仔派对》

《梦幻西游》

生成式世界模型

《燕云十六声》

《蛋仔派对》

《梦幻西游》

Project Genie 如何让一众游戏股大跌，20 人华人 AI 团队做到了 7000 万美金 ARR

投资实习所· 2026-02-02 12:25

Project Genie的技术突破与市场影响 - Google DeepMind于2026年1月向订阅用户开放实验性项目Project Genie，该项目被定义为生成式世界模型，能够根据一句话或草图在几秒钟内生成一个可交互的3D世界，画面实时响应用户操作[1][2][3] - 该技术的核心突破在于其运行逻辑与传统游戏引擎不同，它通过观看大量世界视频来学习世界运转规律，并直接预测下一帧现实，而非依赖预设的代码、引擎、资产和物理系统来构建世界[6] - 该技术不依赖Unity或Unreal等传统游戏引擎，意味着世界和资产无需提前加载和制作，而是根据用户操作实时生成[4][6] 对游戏行业的冲击与资本市场反应 - 2026年1月30日，美股游戏板块因Project Genie的消息出现集体跳水，市场反应被描述为一次“范式级恐慌”，因为该技术动摇了游戏行业的底层假设[2][7] - 具体公司股价表现：Unity下跌24.2%，Roblox下跌13.2%，Take-Two Interactive（GTA开发商）下跌8%[9] - 该技术冲击了行业的核心护城河，对Unity等工具链公司构成结构性风险，同时使《GTA 6》等耗时8年、耗资数亿美元的重资产开发模式显得笨重[7][8][10] - 该技术将游戏创作门槛降至极致，通过一句话即可生成可玩世界原型，这进一步压平了Roblox所依赖的用户生成内容门槛，平台价值可能从提供创作工具转向分发与社交关系[11] 行业未来发展趋势 - 短期内，Project Genie仍处于原型阶段，单次生成世界时长约60秒，分辨率较低且缺乏复杂任务系统，主要作为开发者的“原型加速器”[11] - 中期来看，AI原生游戏将出现，实现每个玩家的体验都不同[11] - 长期趋势是视频与游戏融合，YouTube可能成为最大的游戏平台[11] - 当AI使内容和世界构建不再稀缺时，行业的护城河将转向能创造玩家情感连接的叙事、能形成长期关系的社交网络以及能让人留下来的意义与身份[12] AI在内容创作领域的快速发展 - 在视频内容创作领域，继Higgsfield在9个月内实现2亿美元年度经常性收入后，又一华人AI团队实现了7000万美元的年度经常性收入，过去一年增长了7倍，团队仅20人[12][17] - Replit的估值已接近90亿美元[12][17] - Genspark再次融资后估值达到12.5亿美元，另有两个华人AI团队的年度经常性收入超过3000万美元[17]

生成式世界模型

生成式世界模型

当世界模型不止「视频」该如何评估？WorldLens提出实用化评估新框架

机器之心· 2025-12-23 17:36

世界模型评估的现状与挑战 - 当前世界模型研究正从“能生成”走向“能用”，但评估体系滞后，传统视频质量指标（如LPIPS、FVD）无法衡量几何自洽、多视角一致、时序稳定、行为可执行等决定模型能否服务于仿真、规划、数据合成和闭环决策的关键世界属性[2] - 评估体系的不统一导致不同模型结论难以对齐，失败模式难以复现与归因，已成为制约世界模型规模化推进的瓶颈[8][10] WorldLens评测框架概述 - WorldLens是领域内首个体系化的世界模型评测框架，从生成、重建、指令跟随、下游任务和人类偏好五个互补维度进行综合评估[3] - 该框架旨在将评估对象从“视频”升级为“世界”，提供一套能覆盖世界属性、诊断失败来源、并在不同模型间公平对比的评测协议[10] - 评测工具包（EvalKit）已公开，包括论文、项目主页、开源代码库和官方排行榜[5][6] 评估维度一：生成 - 评估重点超越“帧级真实”，拆解到更贴近世界属性的层面，包括检查关键参与者（如车辆、行人）的外观与语义是否对齐[15] - 在时序层面检查对象身份稳定性，避免纹理闪烁、形状漂移等异常[15] - 将几何与多视角一致性置于中心，通过估计深度观察几何平滑演化，并通过跨视角匹配检验生成多视角世界的能力[15] 评估维度二：重建 - 核心是检验生成序列能否被还原成一个稳定的4D场景，并在新视角下仍然成立[12] - 方法是将生成视频统一提升为4D Gaussian Field，检验其空间与时间一致性[16] - 新视角评测能暴露典型失效模式，如“floaters”（悬浮、不连续的几何碎片），揭示感知真实不等于几何真实[16] 评估维度三：指令跟随 - 评估目的是测试生成世界是否为规划器提供了足够稳定、可信的可行动线索，而非给规划器打分[19] - 同时进行开环与闭环评测，闭环评测会显著放大生成世界中肉眼难以察觉的不一致，导致碰撞、越界、漂移等问题[19] - 对于服务决策与控制的世界模型，闭环评测是“必要条件”而非“可选项”[19] 评估维度四：下游任务 - 评估世界模型作为数据引擎的实用性，检验其生成数据对真实感知与预测模型的帮助或负迁移效应[12][20] - 直接将生成数据用于评测多个真实下游任务，包括BEV地图分割、3D检测、3D跟踪与语义Occupancy预测等[20] - 研究发现，一些画面漂亮的模型在下游任务上可能出现显著退化，性能降幅可达30–50%，表明纹理质量提升不能替代结构与时间层面的对齐[20] 评估维度五：人类偏好 - 构建了大规模人类偏好数据集WorldLens-26K，包含26808条样本，每条均有数值评分和解释异常的自然语言[22] - 利用该数据集训练自动评估代理WorldLens-Agent，使其能输出与人类偏好一致的评分及可解释理由，实现可扩展的主观评估[22] - 这一步将主观判断转化为可学习、可迭代的信号，为未来用偏好对齐优化世界模型提供了路径[23] 核心评测发现与洞察 - 不同评估维度间存在明显能力断层，生成指标领先的模型未必能在重建与新视角上表现良好，开环表现尚可的模型在闭环中往往迅速失稳[26] - 几何与时序稳定性是贯穿多个维度的“共同瓶颈”，几何不稳会表现为新视角下的floaters，并在闭环中放大为事故，进而拖累下游任务表现[27][28] - 闭环评测会放大缺陷，任何微小的不一致都会持续积累，最终导致碰撞、偏航与路线失败，这对用于仿真与安全测试的模型是直接提醒[29] - 人类偏好与自动指标既相关又不完全一致，人类解释能直接指出几何异常、物理违背等关键失败原因，为自动评估提供了训练依据[31] 行业发展趋势与意义 - 世界模型的发展正从“生成好看的片段”走向“构建可交互的世界”，相应的评估必须从“视频质量”升级为“世界属性”[34] - WorldLens的贡献在于提供了一套可执行的共同语言和协议，覆盖从视觉到几何、从功能到偏好的完整链路，为世界模型发展的“下半场”奠定了基础[34] - 未来世界模型的竞争将更侧重于能否生成一个在几何、物理、行为与人类判断上都经得起检验的世界[34]

世界模型评估

生成式世界模型

WorldLens-Agent

世界模型评估

生成式世界模型

WorldLens-Agent

World-in-World：约翰霍普金斯 × 北大联合提出闭环下的具身世界模型评估框架！

具身智能之心· 2025-10-26 12:02

文章核心观点 - 当前生成式世界模型的评估体系存在缺陷，过度关注视频生成质量而忽略了其在具身智能任务中的实际决策辅助能力 [1][2] - 约翰・霍普金斯大学和北京大学等团队推出的World-in-World平台首次采用闭环交互方式评估世界模型，将焦点从“画面逼真度”转向“任务实用性” [1][3] - 实验证明，对具身任务而言，模型的动作-预测对齐能力（可控性）比视觉质量更重要，且通过任务数据微调小模型比直接使用大模型更具成本效益 [16][17][18] 评估体系痛点 - 现有评估基准如VBench和WorldModelBench均为开环测试，只评估视频清晰度和场景合理性，不测试模型帮助智能体完成实际任务的能力 [2] - 生成式世界模型技术已能实现分钟级视频生成和动态3D场景变化，但评估体系与具身任务所需的“动作和预测对齐”需求严重脱节 [2] - 在示例中，能生成超清晰画面但动作预测错误的模型A，反而比画面稍模糊但预测精准的模型B获得更高评分，凸显了评估标准的不合理 [2] 平台设计框架 - 平台通过统一动作API解决模型兼容性问题，将智能体的原始动作转换成不同世界模型能理解的格式（如文本提示、相机位姿序列） [6] - 采用三步闭环决策流程：提案阶段生成候选动作序列，模拟阶段预测执行后未来画面，修正阶段根据任务目标评分选择最优方案执行 [7][13] - 决策公式融合了候选动作、预测结果、当前观测和任务目标四要素，确保每一步决策都有依据 [9] 任务测试范围 - 平台选取四类真实具身任务进行测试：主动识别、图像导航、具身问答和机械臂操作 [10][14] - 针对预训练视频生成模型，平台设计了后训练机制，使用任务相关的动作-画面数据进行微调，且训练与测试场景分离防止过拟合 [12] 实验关键发现 - 模型可控性（1-LPIPS衡量）与任务成功率呈正相关，证明“听话”比“好看”更重要 [16] - 1.5B参数的SVD模型经80K数据微调后，主动识别成功率从56.3%提升至61%，而14B参数的Wan2.2模型未微调时成功率低于微调后的SVD [17] - 增加推理时模拟的候选动作数量可提升成功率，SVD模型模拟次数从3次增至11次，主动识别成功率从53.4%升至61%，且平均路径长度缩短12% [20] - 在机械臂操作任务中，表现最佳的SVD模型成功率仅为46.5%，仅比基础策略高2个百分点，暴露出现有模型缺乏物理建模能力的短板 [21][22] 未来发展方向 - 世界模型研发应聚焦提升可控性，确保模型能精准响应动作指令 [23] - 利用少量任务数据微调是低成本提升模型效果的高性价比路径 [17][23] - 需补强物理建模能力，使模型能够理解碰撞、摩擦力等物理规律，以胜任机械臂操作等精细任务 [22][23]

生成式世界模型

World-in-World平台

生成式世界模型

World-in-World平台

李飞飞发布的单GPU推理世界模型，自动驾驶应用还会远吗？

自动驾驶之心· 2025-10-21 08:06

模型发布与核心特性 - 李飞飞团队推出全新实时世界模型RTFM，该模型具备实时运行、持久性和3D一致性，且仅需单张H100 GPU即可运行 [2][3] - RTFM的设计遵循三大核心原则：效率（单张H100 GPU实现交互级帧率实时推理）、可扩展性（架构可随数据量与算力增长持续扩展）、持久性（用户可无限时长交互且场景永久留存） [5][6] - 模型采用端到端的通用架构，从海量视频数据中自主学习构建三维世界模型，无需依赖显式3D表征 [5] 技术挑战与设计目标 - 生成式世界模型对算力需求巨大，生成60帧4K交互视频流每秒需产生超过10万个token，维持一小时以上持续交互需处理上下文token超1亿，基于当前计算基础设施既不可行也不经济 [11][12] - 团队目标是在当前硬件限制下设计一款高效、可立即部署并能随算力提升持续扩展的生成式世界模型，旨在单张H100 GPU上保持交互帧率且虚拟世界永不消散，以预览未来模型潜力 [15] - 团队深信随算力增长优雅扩展的简洁方法将主导AI领域，生成式世界模型将从持续降低的算力成本中获益 [14] 模型架构与工作原理 - RTFM作为可学习的渲染器，通过训练单一神经网络，输入场景的单张或多张2D图像即可从新视角生成2D图像，无需构建任何显式3D表征 [17][19] - 模型采用作用于帧序列的自回归扩散变换器架构，通过海量视频数据端到端训练实现基于历史帧的后续帧预测，输入图像帧被转换为神经网络中的激活以隐式表示整个世界 [19][20] - RTFM模糊了“重建”（在已有视角间插值）与“生成”（创造输入视角中不可见的新内容）的界限，输入视角多时倾向于重建，输入视角少时被迫进行外推生成 [21][22] 持久性实现与空间记忆 - RTFM通过将每一帧建模为在三维空间中具有姿态（位置和方向）来规避自回归帧模型实现持久性的挑战，模型对世界的记忆具有空间结构 [24][26] - 模型使用带有姿态的帧作为空间记忆，提供了一个弱先验——即所建模的世界是三维欧几里得空间，而无需强制显式预测物体的三维几何形状 [26] - 通过“上下文切换”技术，模型在生成新帧时会从已姿态帧的空间记忆中检索附近帧以构建定制上下文，使得RTFM能在长时间交互中保持对大型世界的持久记忆 [27]

生成式世界模型

RTFM（A Real - Time Frame Model）

生成式世界模型

RTFM（A Real - Time Frame Model）

李飞飞全新「世界模型」问世，单张H100实时生成3D永恒世界

36氪· 2025-10-17 17:47

产品发布 - 李飞飞World Labs发布实时生成式世界模型RTFM（Real-Time Frame Model）[2] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[3] - 该模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[4] 技术原理 - RTFM不构建世界的显式三维表征，而是接收二维图像输入并从不同视点生成同一场景的全新二维图像[6] - 模型通过学习训练集中的视频，自动掌握了对三维几何、反射、阴影等复杂物理现象的建模能力[9] - RTFM被视为一个"学习型渲染器"，其从输入视图到世界表征的转换及渲染机制均通过数据端到端学习获得[46][47] 核心设计原则 - 高效性：单块H100 GPU可实现交互式帧率的实时推理[14] - 可扩展性：模型设计不依赖显式3D表示，能随数据和算力增加而扩展[14] - 持久性：模拟的3D世界具有持久性，不会在用户移开视线时消失[14] 性能表现 - 同一个模型能处理多样场景类型、视觉风格和效果，包括反射、光滑表面、阴影和镜头光晕[23] - 模型利用少量稀疏拍摄的照片即可重建真实世界的具体地点[9] - 通过"上下文调度"技术，RTFM能在大型场景中保持几何形状的持久性且维持高效[64] 行业影响与展望 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[29] - 团队遵循"苦涩的教训"，相信能随算力增长而平滑扩展的简单方法将占据主导地位[33] - 未来扩展方向包括模拟动态世界、允许用户互动，以及面向更大推理预算的模型持续性能提升[70][71] 技术挑战 - 生成式世界模型的算力需求极其庞大，若以60fps帧率生成交互式4K视频流，每秒需生成超过10万个token[31] - 维持一小时或更长的交互持久性需要处理超过1亿token的上下文窗口[32] - 以当前计算基础设施而言，大规模应用既不可行也不具备经济效益[33]

生成式世界模型

RTFM（Real-Time Frame Model

实时帧模型）

生成式世界模型

RTFM（Real-Time Frame Model

实时帧模型）

“AI教母”李飞飞发布实时生成式世界模型！一张H100就能运行

第一财经· 2025-10-17 14:32

公司技术进展 - 斯坦福大学教授李飞飞创立的World Labs公司发布全新实时生成式世界模型RTFM (Real-Time Frame Model) [3] - RTFM模型具备实时持续运行且保持3D一致性的特点亮点是可在单个H100 GPU上运行 [3] - 模型设计围绕效率可扩展性和持久性三个关键原则可在很小的GPU上运行并随计算量增加而扩展 [5] - RTFM是基于大规模视频数据端到端训练的自回归扩散Transformer模型学会了建模3D几何反射阴影等特征 [6] - 上个月公司上线了空间智能研究成果Marble 只需一张图片就能生成持久存在的3D世界 [7] 技术优势与行业意义 - 生成式世界模型的算力需求将极其庞大远超当今的大语言模型 [6] - 采用能够随计算能力提升而平滑扩展的简单方法可受益于计算成本的指数级下降 [6] - 该技术可赋能创造设计学习 AR/VR 机器人等领域具有广泛应用场景 [8] - 行业认为世界模型可能直接面向内容生产行业瞄准游戏公司或电影制片厂 [7] - 技术对艺术家设计师开发者和工程师等职业群体都有重要意义 [8] 公司背景与融资情况 - 李飞飞于2024年创办World Labs 目标是开发具备空间智能的下一代AI系统 [7] - 公司在短短几月内完成约2.3亿美元(约合人民币16亿元)融资 [7] - 公司估值迅速突破10亿美元(约合70亿元) 成为AI领域最新独角兽企业 [7] - 投资方包括a16z Radical Ventures 英伟达NVentures AMD Ventures和Intel Capital等重量级玩家 [7] 未来发展规划 - 公司旨在开发能够利用图像和其他数据对三维世界进行决策的软件致力于构建大型世界模型 [8] - 第一阶段将专注于构建对三维性物理性以及空间和时间概念有深入理解的模型 [9] - 随后将支持增强现实(AR)技术和机器人技术等领域 [9] - 公司计划生成虚拟三维空间用户可以控制其中的物理等变量并允许人们创建自己的三维世界 [8]

生成式世界模型

RTFM（Real-Time Frame Model）

生成式世界模型

RTFM（Real-Time Frame Model）

“AI教母”李飞飞发布实时生成式世界模型！一张H100就能运行

第一财经· 2025-10-17 12:40

公司技术产品RTFM - 斯坦福大学教授李飞飞的创业公司World Labs发布了实时生成式世界模型RTFM，该模型具有实时、持久运行和保持3D一致性的特点[1][3] - RTFM的设计围绕三个关键原则：效率、可扩展性和持久性，使其能在很小的GPU上运行并随计算资源增加而扩展，且构建的世界是永久的[4] - 该模型是一款基于大规模视频数据端到端训练的自回归扩散Transformer，通过观察训练样本学会了建模3D几何、反射和阴影等特征[4] - 团队设定简单目标，最终开发出可高效部署在单个H100 GPU上的模型，无论交互时长均能保持帧率和世界持久性[5] 技术挑战与行业前景 - 生成式世界模型的算力需求将极其庞大，远超当今大语言模型，若用现有架构生成60帧4K交互视频流每秒需超10万个token，持续一小时交互需处理上下文token超1亿[4] - 以当前计算基础设施看，高算力需求既不可行也不经济，团队相信能平滑扩展的简单方法将主导AI领域，因其能受益于计算成本指数级下降[4] - 行业认为世界模型将带来巨大变革，应用远超游戏领域，可能直接面向内容生产行业如游戏公司或电影制片厂[8] - 空间智能技术被李飞飞视为AI领域真正难题，该技术可赋能创造、设计、学习、AR/VR及机器人等广泛领域[9] 公司融资与发展规划 - 李飞飞于2024年创办World Labs，旨在开发具备空间智能的下一代AI系统，公司在短短几月内完成约2.3亿美元（约合人民币16亿元）融资，估值迅速突破10亿美元（约合70亿元）[8] - 公司投资方阵容强大，包括a16z、Radical Ventures、英伟达NVentures、AMD Ventures和Intel Capital等科技与风投界重要玩家[8] - World Labs致力于构建大型世界模型，计划生成虚拟三维空间供用户控制物理等变量，并允许人们创建自己的三维世界，该技术对艺术家、设计师、开发者和工程师等职业群体具有重要意义[9] - 公司未来规划第一阶段专注于构建对三维性、物理性及空间和时间概念有深入理解的模型，随后将支持增强现实技术和机器人技术等领域[10]

生成式世界模型

Artificial Intelligence

RTFM（Real - Time Frame Model）

生成式世界模型

Artificial Intelligence

RTFM（Real - Time Frame Model）

单块GPU上跑出实时3D宇宙，李飞飞世界模型新成果震撼问世

机器之心· 2025-10-17 10:11

文章核心观点 - World Labs公司发布名为RTFM的生成式世界模型，该模型可在单个H100 GPU上实时运行，实现3D一致性渲染 [2] - RTFM作为一种学习型渲染器，无需显式构建3D表示，仅通过输入2D图像即可生成新视角的2D图像，模糊了重建与生成的界限 [5][20] - 生成式世界模型被认为是未来渲染和空间智能的关键方向，其计算需求可能超过当今大语言模型，但将受益于计算成本的持续下降 [8][11][14] 技术原理与创新 - RTFM是端到端训练的自回归扩散Transformer，基于大规模视频数据训练，学会建模3D几何、反射、阴影等特征 [5][17] - 模型通过为每一帧建模其在三维空间中的姿态，配合上下文调度机制，实现世界的持久性，解决自回归帧生成模型的记忆挑战 [24][25] - 该技术将输入图像转换为神经网络的激活（KV缓存）以隐式表示世界，通过注意力机制生成与输入视角一致的新视图 [17] 性能与效率突破 - 模型在单个H100 GPU上即可运行，保持交互式帧率，并能提供持久的世界体验 [2][15] - 生成4K分辨率、60帧每秒的交互式视频流需要每秒输出超过10万个token，而保持一小时以上交互一致性需处理超过一亿个token的上下文 [11][12] - 团队设计目标是构建一个足够高效、今天就可部署的模型，并能够随着算力增长持续扩展 [15] 行业意义与发展前景 - 生成式世界模型契合计算成本指数级下降的趋势，将在未来充分受益 [13][14] - 该技术代表了计算机图形学方法的转变，从依赖人工设计的传统3D渲染转向数据驱动的学习型渲染器 [17] - RTFM与Marble空间智能模型结合，可从单幅图像创建3D世界，渲染通过端到端学习而来的复杂效果如光照和反射 [18]

生成式世界模型

Artificial Intelligence

生成式世界模型

Artificial Intelligence

李飞飞全新「世界模型」问世，单张H100实时生成3D永恒世界

36氪· 2025-10-17 09:48

产品发布 - 李飞飞World Labs发布全新实时生成式世界模型RTFM（Real-Time Frame Model）[1] - RTFM是一款在大型视频数据上进行端到端训练的自回归扩散Transformer模型[1] - 模型仅需一块H100 GPU即可实时渲染持久且3D一致的世界[1][5] 技术原理 - RTFM不构建显式三维表征，而是接收一张或多张二维图像输入，直接从不同视点生成同一场景的全新二维图像[3] - 模型通过观察训练集视频学会对三维几何、反射、阴影等复杂物理现象进行建模[5] - 采用自回归扩散Transformer架构，在帧序列上运行，通过大规模视频数据端到端训练学会预测下一帧[23] - 模型将输入帧转换为神经网络激活值（KV缓存）隐式表征世界，通过注意力机制生成新视图[23] 核心特性 - 高效性：单块H100 GPU可实现交互式帧率的实时推理[5][22] - 可扩展性：设计能随数据和算力增加而扩展，不依赖显式3D表示[5][23] - 持久性：支持无休止交互，模拟的3D世界不会消失[5] - 通过"上下文调度"技术使用带位姿的帧作为空间记忆，在大型场景中保持几何形状持久性[34][37] 应用能力 - 可渲染由单张图像生成的3D场景，处理多样场景类型、视觉风格和效果（包括反射、光滑表面、阴影和镜头光晕）[15] - 能利用少量稀疏拍摄照片重建真实世界具体地点[5] - 打破重建（现有视图间插值）与生成（创造未见新内容）之间的界限[29] - 当提供大量输入视图时倾向于重建，输入视图较少时进行外推和想象[29] 行业意义 - 生成式世界模型将彻底改变从传媒到机器人等众多行业[20] - 解决了长期困扰世界模型可扩展性的问题[16] - 团队遵循"苦涩的教训"理念，设计能随算力增长平滑扩展的简单方法[21] - 当前模型为未来世界模型在当今硬件上部署设定了技术路线[38]

生成式世界模型

RTFM（Real-Time Frame Model

实时帧模型）

生成式世界模型

RTFM（Real-Time Frame Model

实时帧模型）