锦秋基金被投Manifold AI发布通用交互世界模型，让智能体具备实时未来预测能力｜Jinqiu Spotlight

公司及产品介绍 - 锦秋基金于2025年领投了Manifold AI（流形空间）的天使轮，并在天使+轮继续追加投资，该基金是一家12年期的AI Fund，以长期主义为核心投资理念，积极寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [4] - Manifold AI（流形空间）基于自研的世界模型构建具有通用理解和交互能力的具身智能体 [2] - 公司近日发布了名为WorldScape的通用交互世界模型，该模型成为当前主流世界模型评测worldscore榜单排名第一的实时世界模型 [5][9][40] WorldScape模型核心优势 - WorldScape是目前少数能够在四个核心维度上同时取得领先表现的交互式世界模型 [11] - 优势一：提供全面领先的交互体验，通过统一的动作—世界状态建模框架，同时支持空间导航与物体操作，避免了多模块拼接带来的不一致问题 [11] - 优势二：具有更稳定、可信的三维世界结构，在训练过程中显式引入三维几何感知的空间表示与约束，有效缓解了长时生成中常见的几何漂移与结构崩塌问题 [12] - 优势三：在实时生成下保持高视觉质量，通过结构化生成与高效训练策略，在单张GPU上实现接近实时（6–16 FPS）的交互式生成，并在成像质量、运动平滑度等视觉指标上位居前列 [13] - 优势四：具备“记忆”的世界，通过几何感知的世界状态记忆机制，使模型能够在不同时间步之间共享和更新信息，这是区分“视频生成模型”和“世界模型”的关键 [14] 核心技术：时空一致性 - WorldScape层次化地从训练和推理设计入手，增强生成内容在时间和空间上的一致性 [16] - 采用多任务学习范式，将三维几何先验深度融合进模型的“认知”，构建几何约束的生成框架 [19] - 训练过程同时受流匹配损失与三维几何信号（深度和3D高斯泼溅）的互补监督，通过联合优化总体损失函数对生成内容的场景结构与空间关系形成强约束 [20] - 通过端到端的3D重建支路任务，强制模型在生成每一帧时都遵循严谨的空间物理逻辑，从而大幅减小空间拓扑结构的畸变 [21] 核心技术：高效长序列一致性建模 - 针对长视频生成中显存爆炸与长期一致性难以兼顾的痛点，提出了一种基于KV缓存的优化策略 [24] - 该策略利用相机轨迹先验，通过三级分层架构（永久锚点、全局记忆池、局部滑动窗口）实现子线性的显存复杂度 [24] - 结合相机外参矩阵，通过几何相似度评分，优先提取与当前视角最相关的场景记忆，确保模型在移动拍摄时能精准“回想起”之前出现过的物体 [25] - 通过门控去重与全局剪枝，实时评估新信息的“惊喜度”，主动保留难以被现有记忆重建的视觉特征，剔除冗余信息，在有限的显存预算下扩展场景容量 [26] 核心技术：通用交互控制 - WorldScape提出统一交互感知条件建模机制，解决了现有模型往往只支持单一控制模式（如只支持移动、语言或操控某类物体）的问题 [29] - 支持摄像机轨迹控制，采用Plücker embedding表示摄像机轨迹，将每一帧的相机参数编码为结构化空间表示，然后通过轻量Adapter注入到扩散Transformer中，使模型能精确建模WASD移动、QERF旋转、任意视角轨迹等条件信号 [30] - 支持手部动作控制，将手部动作转换为姿态视频，与初始帧拼接后输入模型，实现接触、抓取、操控等操作，在一个世界模型中统一了导航与操作 [31] 核心技术：实时交互 - WorldScape采用基于Self Forcing的非对称蒸馏架构实现实时交互 [34] - 先训练一个完整统一交互可控的双向注意力扩散模型，再应用分布匹配蒸馏，蒸馏成按逐个视频chunk进行生成的因果自回归扩散模型 [34] - 通过基于滑动窗口的自回归去噪来减弱Self Forcing的严格因果性，允许不同chunk在去噪过程中相互关注，从而使不同chunk衔接处的相机运动更加平滑 [34] - 模型可在单张GPU上实时生成832×480分辨率视频 [9] 能力评估与行业地位 - 在WorldScore基准的官方排行榜中，WorldScape是综合排名第一的实时模型 [40] - 实验结果表明，WorldScape在视觉质量、交互响应、三维空间一致性、长期记忆能力以及单卡实时生成像素吞吐率等多个关键维度上实现均衡领先 [40] - 具体指标显示：WorldScape在成像质量上得分为0.685，运动平滑度为0.986，主体质量为0.891，背景一致性为0.923，轨迹准确性为0.717，记忆对称性为0.686 [38] - 这一结果表明，模型规模并非获得高水平世界生成能力的唯一决定因素，通过合理的时空建模与控制机制设计，实时模型同样可以在复杂多场景设定下取得强竞争力 [40] 总结与展望 - WorldScape模型突破了已有工作在通用性、实时性等方面的不足，通过空间一致性增强的自回归蒸馏框架，兼容不同类型的动作注入模块 [42] - 该模型在保证高交互效率的同时，维持稳定的动作跟随能力，有望成为支撑通用具身智能体的空间智能基座 [42] - 世界模型的愿景是为智能体打造一个无限且真实的“虚拟实验室”，通过在内部模拟环境的演化，使智能体可以在虚拟世界中进行无限制的探索、学习与决策，而无需昂贵的真实世界试错 [7]