500万次围观，1X把「世界模型」真正用在了机器人NEO身上

文章核心观点 - 1X公司为其人形机器人NEO推出了全新的“1X World Model”大脑，标志着机器人控制范式从依赖海量机器人数据训练的传统视觉语言动作模型，转向了基于互联网规模视频预训练的世界模型，使机器人能够通过“想象”任务过程来规划动作，显著提升了对新任务和环境的泛化能力 [4][6][13] 1X World Model的技术原理与架构 - 技术范式转变：1XWM是一种基于视频预训练的世界模型，与直接从图像-语言输入预测动作的VLA模型不同，它通过文本条件下的视频生成来推导机器人动作，从而能够利用互联网视频中的真实世界动力学规律，无需大规模机器人数据预训练即可泛化到新物体、新运动和新场景 [12][13] - 核心组件：系统包含一个140亿参数的文本条件扩散模型作为世界模型主干，以及一个逆动力学模型，前者负责高保真预测场景演化，后者负责从生成视频中提取精确的动作序列 [18][19] - 训练流程：采用多阶段训练策略，先在互联网规模视频数据上预训练，再用900小时人类第一视角视频进行中期训练，最后用70小时NEO机器人数据进行具身微调，以适配其视觉外观与运动学特性 [18][20] 1X World Model的能力与表现 - 任务泛化：搭载1XWM的NEO能够执行超出既有训练经验的任务，包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体，以及完成需要全新动作模式的任务，如清洁和双手协调操作 [25][26][28][30] - 执行一致性：模型生成的视频与机器人实际执行过程在视觉表现上高度一致，表明其在空间结构理解、运动学约束建模及物理一致性方面具备较强能力 [25][26] - 成功率评估：在系统性实物实验中，1XWM在多种动作原语上保持了稳定的成功率，但倒液体、绘图等对精细操作要求高的任务仍具挑战性，每类任务重复执行30次 [32] - 质量与成功率关联：生成视频的质量与任务成功率存在相关性，例如生成错误视频时成功率几乎为0，通过并行生成多个视频并选择质量最佳者（可借助VLM评估器自动化），可提高任务成功率 [34] 关键训练要素与消融分析 - 字幕上采样：利用VLM为第一视角数据集生成更详细的描述性字幕用于训练，在所有评测数据集上均提升了视频生成质量，因为更细致的字幕与视频模型预训练时的文本条件更匹配，能更清晰引导动作生成 [18][36][41] - 第一视角人类数据：引入900小时人类第一视角视频进行中期训练，显著提升了模型在新任务和分布外场景下的生成质量，为操作任务提供了可迁移的通用先验，且与NEO的类人具身高度契合 [20][36][41] - 数据平衡：在已有大量NEO数据覆盖的分布内任务上，额外加入第一视角人类数据可能会稀释后训练数据分布，对效果提升有限甚至略有负面影响 [42] 市场热度与行业意义 - 技术演示引发高度关注：1XWM的发布推文浏览量已突破500万，显示市场对机器人智能范式进步的高度兴趣 [8] - 行业意义：该技术标志着机器人智能开始直接受益于视频预训练的规模化能力跃迁，为实现通用家庭机器人提供了新的技术路径，其成功离不开为高保真人类具身到机器人具身迁移而设计的整套硬件系统支持 [13]