锦秋基金被投 Manifold AI（流形空间）发布用于通用机器人的世界-动作模型｜Jinqiu Spotlight

公司技术发布 - Manifold AI（流形空间）正式发布了全新的机器人控制策略WorldScape Policy，这标志着世界-动作模型（World Action Model）路线的开始 [4][7] - 该策略旨在解决现有视觉-语言-动作模型在真实世界复杂环境中表现不佳的问题，其核心创新在于直接将强大的基础世界模型转化为通用机器人规划器 [7] 技术路线与架构创新 - WorldScape Policy摒弃了传统“两阶段”流水线（先预测未来视频，再用逆动力学模型推导动作），首次基于自研的具身世界基座模型WorldScape，通过统一的混合Transformer架构，实现了视频、深度与动作的端到端联合建模 [10] - 该策略在统一的流匹配目标下联合建模RGB、深度与连续动作块，并通过深度感知的多模态词元条件来增强三维空间推理能力，以支持接触丰富的操作任务 [10] - 公司引入了基础世界模型WorldScape的预训练，使模型具备内生的空间推理预测能力，该模型通过空间一致性增强的自回归蒸馏框架，在保证高交互效率的同时维持稳定的动作跟随能力 [13] 数据处理与训练方法 - 为突破特定形态数据监督的瓶颈，公司提出了一条自动化的数据筛选与标注流水线，将大规模第一人称人类视频转换为交错的“指令-动作”片段，并与跨形态机器人示范数据进行混合，构建了“具身数据金字塔” [11][20] - 公司提出了人类在环后训练流程，包括从基座世界模型通用预训练，到跨本体统一世界模型-动作预训练和特定本体专项能力微调，并引入优势条件引导的人类在环经验学习，以提升真机操作的闭环性能与泛化效果 [16] 性能表现与优势 - 在RoboTwin 2.0仿真基准（包含50个任务，引入随机背景、杂乱桌面、光照变化等极端干扰）以及真实的双臂机器人测试环境中，WorldScape Policy展现出了令人惊叹的性能 [22] - 在“折叠衣服”、“铺平衬衫”等极具挑战性的长程、复杂交互类任务中，WorldScape Policy表现出远超现有VLA模型和基于视频预测两段式模型的稳定性 [22] - 面对从未见过的新任务，WorldScape Policy凭借预训练中习得的强大物理先验，仅需极少量演示数据即可实现快速迁移，在少样本条件下成功率远超传统方法（传统方法成功率可能为0） [23] - 在训练效率上，相较于基准方法动辄需要几万步的微调，WorldScape Policy仅需十分之一的微调步数即可达到理想的成功率 [24] 行业意义与前景 - WorldScape Policy的发布，标志着世界模型正式从“旁观者”（视频生成）进化为“参与者”（动作控制），为解决具身智能的数据效率和泛化性难题提供了一条极具潜力的路线 [25] - 该技术证明了将生成式世界模型转化为可执行策略不仅可行，而且在鲁棒性和泛化性上具有压倒性优势，被认为是具身智能“世界模型时代”的真正开端 [26]