1X公司技术突破:NEO机器人引入世界模型 - 公司推出基于视频预训练的世界模型1XWM,并将其集成至人形机器人NEO中,标志着其从依赖远程操控或死记硬背动作,转向具备通过“想象”来规划行动的能力[3][4] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律,并在接到指令时,先在脑海中生成一段“成功完成任务”的视频,再倒推出具体动作[4] - 官方承认技术存在“脑子学会了,手没学会”的挑战,即生成视频完美但实际动作可能失败的情况[5] - 相关推文在截稿时浏览量已突破500万,显示市场关注度极高[6] 技术范式:从VLA到世界模型 - 当前许多机器人基础模型采用视觉-语言-动作范式,其视觉语言模型侧重于语义理解,缺乏对物理动态的预测,导致学习简单任务也需要数万小时昂贵的机器人数据[10] - 1XWM采用世界模型驱动策略,通过文本条件下的视频生成来推导机器人动作,其核心优势在于能够借助互联网规模视频学习真实世界动力学,无需大规模机器人数据预训练或遥操作演示,即可泛化到新物体、新运动和新任务场景[11] - 这被视为机器人智能范式的一次转变,使机器人能直接受益于视频预训练的规模化能力提升[11] 1X世界模型的技术架构与训练 - 1XWM主干是一个140亿参数的文本条件扩散模型,训练分为三阶段:先在互联网规模视频数据上预训练,再用900小时人类第一视角视频进行中期训练,最后用70小时NEO机器人数据进行具身微调[16][18] - 公司采用多阶段训练策略,并利用视觉语言模型为简要的第一视角任务描述生成更详细的描述性字幕,通过“字幕上采样”提升模型对提示词的遵循能力[16] - 模型包含世界模型主干和逆动力学模型两部分:世界模型负责高保真预测场景演化;逆动力学模型则负责从生成帧中预测出精确的动作序列,并施加运动学约束以确保动作可行性[17] - 逆动力学模型在400小时未过滤的机器人数据上训练,使其能准确追踪NEO在任意状态下的运动[16] 模型能力与实验评估 - 实验评估显示,搭载1XWM的NEO能够执行多种超出既有经验的任务,包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体,以及完成需要全新动作模式的任务[24] - 在需要双手协调和人机交互的任务上,NEO也展现出能力,表明此类知识来源于视频预训练和第一人称视角的人类交互训练,并因其类人身体结构而得以直接迁移[28] - 系统性实物实验显示,1XWM在多种动作原语上保持稳定成功率,但对倒液体、绘图等精细操作任务仍具挑战性[30] - 研究团队通过并行生成多个视频并执行质量最好的一个来提升成功率,该选择过程可手动完成,也可使用视觉语言模型评估器自动化[32] 关键训练要素分析 - 消融分析证实,“字幕上采样”在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与预训练文本条件更匹配,能更清晰引导动作生成[39] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验[39] - 然而,在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限甚至略有负面影响[40] - 后训练数据集主要包含高质量的桌面抓取和放置数据,占比98.5%[21]
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
机器之心·2026-01-14 09:39