500万次围观,1X把「世界模型」真正用在了机器人NEO身上
机器人机器人(SZ:300024) 36氪·2026-01-14 10:17

1X公司技术发布 - 1X公司为其NEO机器人发布了全新的“1X World Model”大脑,旨在通过让机器人学会“想象”来解放背后的操作员[2] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律,并利用类似Sora的视频生成技术,在接到指令时先在脑海中生成成功完成任务视频,再倒推执行动作[2] - 官方承认技术存在“脑子学会了,手没学会”的情况,即生成的想象视频完美,但实际动作可能失败[2] 市场关注与热度 - 该技术发布引发了极高关注,截至截稿时,其官方推文浏览量已突破500万次[3] 技术范式与核心创新 - 1X提出的世界模型(1XWM)标志着机器人智能范式的转变,它通过文本条件下的视频生成来推导动作,使机器人能直接受益于互联网规模视频预训练带来的能力跃迁,而无需依赖大规模、高成本的机器人数据预训练[8][9] - 该技术旨在解决当前主流视觉语言动作模型在物理动态过程预测和空间关系理解上的不足,这些模型通常需要数万小时的机器人数据才能学会简单任务[8] 技术架构与训练流程 - 1XWM采用两阶段对齐过程:首先训练一个能高保真预测场景演化的世界模型主干(文本条件扩散模型),然后训练一个逆动力学模型将像素空间与执行器控制连接,预测精确动作序列[10][11] - 世界模型主干基于一个140亿参数的生成式视频模型,并采用多阶段训练:先用900小时人类第一视角视频进行中期训练,再用70小时机器人数据进行微调[12] - 逆动力学模型在400小时未过滤的机器人数据上训练,包含随机探索和无关任务的运动轨迹[12] - 为提升模型对提示词的遵循能力,1X利用视觉语言模型为第一视角数据集生成更详细的描述性字幕用于训练[12] 性能与能力评估 - 搭载1XWM的NEO能执行多种超出既有经验的任务,包括抓取分布内与分布外物体、操作具备复杂可供性的新物体、以及完成需要全新动作模式的任务[16] - 实验显示,1XWM生成的视频与真实世界执行过程在视觉表现上高度一致,表明其在空间结构理解、运动学约束建模及物理一致性方面具备较强能力[16] - 系统性实物实验(每类任务重复30次)显示,1XWM在多种动作原语上保持稳定成功率,但对倒液体、绘图等精细操作任务仍具挑战性[17] - 研究团队发现生成视频质量与任务成功率存在关联,并尝试通过并行生成多个视频并执行质量最好的一个(可通过VLM评估器自动化选择)来提高成功率[19] 关键训练要素分析 - 字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与预训练文本条件更匹配,能更清晰引导动作生成[24] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量,为操作任务提供了可迁移的通用先验[24] - 在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角数据可能稀释后训练数据分布,对效果提升有限甚至略有负面影响[24] 训练数据构成 - NEO的后训练数据集主要包含高质量的抓取和放置数据,占比达98.5%,这些数据经过筛选,仅包含桌面操作且手部可见的场景[15]