深度解析世界模型：新范式的路线之争，实时交互与物理仿真

文章核心观点 - 2026年将是多模态技术大年，视频生成将快速进步并推动应用大规模落地，世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线：一条以实时视频生成为核心，服务文娱、游戏等面向人类的消费者场景；另一条以显式3D结构为中心，服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型，需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律，并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势：语言作为有损压缩的智能进步遇到局限，空间成为下一个重要智能来源；自回归Transformer与扩散模型的算法进步及融合，使生成模型具备智能层面的扩展定律；具身智能的需求倒逼，机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - 长时记忆：需生成持续、连贯的长时间世界，保持全局一致性，当前视频模型通常只能生成十秒级片段 [6] - 交互性：需支持在任意帧动态注入动作指令以影响后续画面，训练数据需同时包含视频帧序列和对应动作 [7][8] - 实时性：交互式应用要求低延迟，游戏需低于0.1秒，VR理想情况应低于0.01秒，当前扩散模型推理难达30FPS以上，业界通过蒸馏和架构改进（如DMD将50步扩散压缩为4步）来提升实时性 [12] - 物理合理性：对自动驾驶、机器人等高风险领域，模拟结果必须符合真实物理规律，当前模型在极端物理条件下易出现幻觉，研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - 路线一：实时视频世界模型：以实时性为核心优化目标，适用于文娱、游戏等to C场景，包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - 路线二：3D/4D结构化世界模型：以物理准确性为核心，采用NeRF、3D高斯散点等显式3D表示，优势在于3D一致性强，适用于机器人、自动驾驶等for AI的领域，劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式（左侧Video-based，右侧3D/物理结构），纵轴表示服务对象（上部分面向人类，下部分面向AI与机器人） [24] - World Labs：位于右下象限，强调3D一致性与持久性，估值超10亿美元，融资总额约2.3亿美元，核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - General Intuition：位于左上象限，作为公益性公司，专注于利用游戏数据训练能进行时空推理的agent，其关联平台Medal每年可获得约20亿个游戏视频片段，拥有1000万MAU，公司已完成1.34亿美元种子轮融资 [24][33][35][38] - Decart：位于左下象限，推出可交互“开放世界”AI模型Oasis，该模型以Minecraft游戏视频训练，可实现端到端实时闭环，生成速度约25帧/秒，公司已完成3200万美元A轮融资，投后估值超5亿美元 [24][39][41][44] - Odyssey：位于右下象限，追求极致真实感与可编辑性，采用重装备采集数据和3D高斯泼溅技术，其Explorer模型可将单图像转化为高保真3D场景资产，公司已完成1800万美元A轮融资 [24][45][47][48]