NEO机器人
搜索文档
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
具身智能之心· 2026-01-15 08:32
文章核心观点 - 1X公司为其人形机器人NEO推出了全新的“1X World Model”大脑,标志着机器人控制范式从依赖海量机器人数据训练的传统视觉语言动作模型,转向了基于互联网规模视频预训练的世界模型,使机器人能够通过“想象”任务过程来规划动作,显著提升了对新任务和环境的泛化能力 [4][6][13] 1X World Model的技术原理与架构 - 技术范式转变:1XWM是一种基于视频预训练的世界模型,与直接从图像-语言输入预测动作的VLA模型不同,它通过文本条件下的视频生成来推导机器人动作,从而能够利用互联网视频中的真实世界动力学规律,无需大规模机器人数据预训练即可泛化到新物体、新运动和新场景 [12][13] - 核心组件:系统包含一个140亿参数的文本条件扩散模型作为世界模型主干,以及一个逆动力学模型,前者负责高保真预测场景演化,后者负责从生成视频中提取精确的动作序列 [18][19] - 训练流程:采用多阶段训练策略,先在互联网规模视频数据上预训练,再用900小时人类第一视角视频进行中期训练,最后用70小时NEO机器人数据进行具身微调,以适配其视觉外观与运动学特性 [18][20] 1X World Model的能力与表现 - 任务泛化:搭载1XWM的NEO能够执行超出既有训练经验的任务,包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体,以及完成需要全新动作模式的任务,如清洁和双手协调操作 [25][26][28][30] - 执行一致性:模型生成的视频与机器人实际执行过程在视觉表现上高度一致,表明其在空间结构理解、运动学约束建模及物理一致性方面具备较强能力 [25][26] - 成功率评估:在系统性实物实验中,1XWM在多种动作原语上保持了稳定的成功率,但倒液体、绘图等对精细操作要求高的任务仍具挑战性,每类任务重复执行30次 [32] - 质量与成功率关联:生成视频的质量与任务成功率存在相关性,例如生成错误视频时成功率几乎为0,通过并行生成多个视频并选择质量最佳者(可借助VLM评估器自动化),可提高任务成功率 [34] 关键训练要素与消融分析 - 字幕上采样:利用VLM为第一视角数据集生成更详细的描述性字幕用于训练,在所有评测数据集上均提升了视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更匹配,能更清晰引导动作生成 [18][36][41] - 第一视角人类数据:引入900小时人类第一视角视频进行中期训练,显著提升了模型在新任务和分布外场景下的生成质量,为操作任务提供了可迁移的通用先验,且与NEO的类人具身高度契合 [20][36][41] - 数据平衡:在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角人类数据可能会稀释后训练数据分布,对效果提升有限甚至略有负面影响 [42] 市场热度与行业意义 - 技术演示引发高度关注:1XWM的发布推文浏览量已突破500万,显示市场对机器人智能范式进步的高度兴趣 [8] - 行业意义:该技术标志着机器人智能开始直接受益于视频预训练的规模化能力跃迁,为实现通用家庭机器人提供了新的技术路径,其成功离不开为高保真人类具身到机器人具身迁移而设计的整套硬件系统支持 [13]
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
36氪· 2026-01-14 10:17
1X公司技术发布 - 1X公司为其NEO机器人发布了全新的“1X World Model”大脑,旨在通过让机器人学会“想象”来解放背后的操作员[2] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律,并利用类似Sora的视频生成技术,在接到指令时先在脑海中生成成功完成任务视频,再倒推执行动作[2] - 官方承认技术存在“脑子学会了,手没学会”的情况,即生成的想象视频完美,但实际动作可能失败[2] 市场关注与热度 - 该技术发布引发了极高关注,截至截稿时,其官方推文浏览量已突破500万次[3] 技术范式与核心创新 - 1X提出的世界模型(1XWM)标志着机器人智能范式的转变,它通过文本条件下的视频生成来推导动作,使机器人能直接受益于互联网规模视频预训练带来的能力跃迁,而无需依赖大规模、高成本的机器人数据预训练[8][9] - 该技术旨在解决当前主流视觉语言动作模型在物理动态过程预测和空间关系理解上的不足,这些模型通常需要数万小时的机器人数据才能学会简单任务[8] 技术架构与训练流程 - 1XWM采用两阶段对齐过程:首先训练一个能高保真预测场景演化的世界模型主干(文本条件扩散模型),然后训练一个逆动力学模型将像素空间与执行器控制连接,预测精确动作序列[10][11] - 世界模型主干基于一个140亿参数的生成式视频模型,并采用多阶段训练:先用900小时人类第一视角视频进行中期训练,再用70小时机器人数据进行微调[12] - 逆动力学模型在400小时未过滤的机器人数据上训练,包含随机探索和无关任务的运动轨迹[12] - 为提升模型对提示词的遵循能力,1X利用视觉语言模型为第一视角数据集生成更详细的描述性字幕用于训练[12] 性能与能力评估 - 搭载1XWM的NEO能执行多种超出既有经验的任务,包括抓取分布内与分布外物体、操作具备复杂可供性的新物体、以及完成需要全新动作模式的任务[16] - 实验显示,1XWM生成的视频与真实世界执行过程在视觉表现上高度一致,表明其在空间结构理解、运动学约束建模及物理一致性方面具备较强能力[16] - 系统性实物实验(每类任务重复30次)显示,1XWM在多种动作原语上保持稳定成功率,但对倒液体、绘图等精细操作任务仍具挑战性[17] - 研究团队发现生成视频质量与任务成功率存在关联,并尝试通过并行生成多个视频并执行质量最好的一个(可通过VLM评估器自动化选择)来提高成功率[19] 关键训练要素分析 - 字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与预训练文本条件更匹配,能更清晰引导动作生成[24] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量,为操作任务提供了可迁移的通用先验[24] - 在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角数据可能稀释后训练数据分布,对效果提升有限甚至略有负面影响[24] 训练数据构成 - NEO的后训练数据集主要包含高质量的抓取和放置数据,占比达98.5%,这些数据经过筛选,仅包含桌面操作且手部可见的场景[15]
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
机器之心· 2026-01-14 09:39
1X公司技术突破:NEO机器人引入世界模型 - 公司推出基于视频预训练的世界模型1XWM,并将其集成至人形机器人NEO中,标志着其从依赖远程操控或死记硬背动作,转向具备通过“想象”来规划行动的能力[3][4] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律,并在接到指令时,先在脑海中生成一段“成功完成任务”的视频,再倒推出具体动作[4] - 官方承认技术存在“脑子学会了,手没学会”的挑战,即生成视频完美但实际动作可能失败的情况[5] - 相关推文在截稿时浏览量已突破500万,显示市场关注度极高[6] 技术范式:从VLA到世界模型 - 当前许多机器人基础模型采用视觉-语言-动作范式,其视觉语言模型侧重于语义理解,缺乏对物理动态的预测,导致学习简单任务也需要数万小时昂贵的机器人数据[10] - 1XWM采用世界模型驱动策略,通过文本条件下的视频生成来推导机器人动作,其核心优势在于能够借助互联网规模视频学习真实世界动力学,无需大规模机器人数据预训练或遥操作演示,即可泛化到新物体、新运动和新任务场景[11] - 这被视为机器人智能范式的一次转变,使机器人能直接受益于视频预训练的规模化能力提升[11] 1X世界模型的技术架构与训练 - 1XWM主干是一个140亿参数的文本条件扩散模型,训练分为三阶段:先在互联网规模视频数据上预训练,再用900小时人类第一视角视频进行中期训练,最后用70小时NEO机器人数据进行具身微调[16][18] - 公司采用多阶段训练策略,并利用视觉语言模型为简要的第一视角任务描述生成更详细的描述性字幕,通过“字幕上采样”提升模型对提示词的遵循能力[16] - 模型包含世界模型主干和逆动力学模型两部分:世界模型负责高保真预测场景演化;逆动力学模型则负责从生成帧中预测出精确的动作序列,并施加运动学约束以确保动作可行性[17] - 逆动力学模型在400小时未过滤的机器人数据上训练,使其能准确追踪NEO在任意状态下的运动[16] 模型能力与实验评估 - 实验评估显示,搭载1XWM的NEO能够执行多种超出既有经验的任务,包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体,以及完成需要全新动作模式的任务[24] - 在需要双手协调和人机交互的任务上,NEO也展现出能力,表明此类知识来源于视频预训练和第一人称视角的人类交互训练,并因其类人身体结构而得以直接迁移[28] - 系统性实物实验显示,1XWM在多种动作原语上保持稳定成功率,但对倒液体、绘图等精细操作任务仍具挑战性[30] - 研究团队通过并行生成多个视频并执行质量最好的一个来提升成功率,该选择过程可手动完成,也可使用视觉语言模型评估器自动化[32] 关键训练要素分析 - 消融分析证实,“字幕上采样”在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与预训练文本条件更匹配,能更清晰引导动作生成[39] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验[39] - 然而,在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限甚至略有负面影响[40] - 后训练数据集主要包含高质量的桌面抓取和放置数据,占比98.5%[21]
小鹏当场剪开皮肤证明里面没藏真人,但机器人长出胸部后到底能替打工人做点啥?
36氪· 2025-11-10 17:38
小鹏IRON机器人发布与技术创新 - 小鹏发布人形仿生机器人IRON,其因步伐轻柔、姿态逼真而引发“真人表演”质疑,公司通过剪开腿部纤维皮肤展示内部结构以证真身[1][3] - IRON采用仿人“骨骼-肌肉-皮肤”三层架构,全身覆盖柔性纤维,身高178cm,体重70kg,具备女性胸部等人类特征[3] - 机器人步态控制并非主要创新点,其逼真度源于1:1仿人本体设计、关节灵活度及“穿衣服”的外观[5] - IRON在肩膀和腰部安装了可动关节以提升拟人化程度,业内评价其硬件水平达国内头部,是“唯一能与特斯拉对标的人形机器人”[7] 人形机器人行业现状与应用场景 - 人形机器人目前主要应用于跳舞迎宾、展厅客服、景区导览等场景,宇树机器人日租金从2万多元跌至3-4千元,机器狗租金低至四五百元,市场出现供给过剩迹象[9][10] - 小鹏计划让IRON先在4S店担任汽车销售,而非工厂作业,因手部耐用性差且成本高昂,做家务则存在服务能力构建难和安全问题[7][9] - 全球首款家务机器人NEO在美国定价2万美元或月租499美元,但动作缓慢,开冰箱拿水需1分钟,叠衣服需2分钟,且依赖真人远程操控引发隐私担忧[13][15] - 训练机器人做家务需在真实环境中收集数据以构建“世界模型”,家庭场景因交互复杂且安全要求高而成为最大挑战[15] 行业参与者战略与商业化挑战 - 特斯拉Optimus被定位为公司未来核心,目标累计交付100万台,作为市值管理的一部分,但其量产因灵巧手造价高昂且易损(使用6周即报废)而数次延期[18][20][22] - 车企大力投入人形机器人研发,因机器人与汽车零部件复用率高,如感知、域控制器及70%的AI软件可共享[20] - 机器人“大脑”尚未达到通用任务水平,训练仍处于“小模型时代”,通用“具身智能ChatGPT”时刻来临时间未知[22] - 业内预计机器人价格需降至2万美元左右才能普及,目前Optimus年零件更换成本近10万美元[22] 技术发展方向与行业展望 - 研发人形机器人可推动整个供应链活力,尽管简易假爪可降低成本,但探索复杂动作(如拿塑料瓶)需灵巧手以提升动作可控性[28] - 人形设计能最大化利用人类数据,未来或可替代40%-50%的人类任务,并可能发展出如机器人足球赛等小众赛事[30] - 机器人拟人化设计(如性别特征)旨在增强亲和感,但小鹏IRON的女性化设计引发争议,公司表示未来将推出不同性别、身材选项[24][26]
“机器人元年”的狂欢:为什么要把它们塑造成表演型人才?
凤凰网· 2025-11-04 19:39
行业现状与产品表现 - 仿生机器人“李白”在表演中出现故障,如左右眼开合不一致,且因已使用三五年而需要返厂维修[3] - 机器人主题餐厅的实际体验与宣传不符,前台仿生机器人点单反应迟缓且无后续,餐食实际由人工制作,人形机器人仅用于表演接待[4] - 机器人4S店和6S店的人形机器人因电池续航和零部件寿命问题,经常处于“非必要不表演”的静态展示状态,医疗机械臂是少数仍在演示的产品[4][5] - 在2025年世界机器人运动会上,人形机器人表现不佳,足球比赛移动缓慢互相绊倒,跆拳道比赛被吐槽为“对着空气挥舞”,田径赛中出现冲撞工作人员的意外[6] - 机器人半程马拉松比赛中出现头颅掉落、操作员被甩飞、需喷降温喷雾为关节续命等“名场面”[5] 资本市场与融资热度 - 2025年前10个月,中国机器人领域融资额已超过2024年全年总和,中国人形机器人企业融资占全球60%以上[7] - 个人投资者热情高涨,有外行人士携带800万元个人资金咨询投资机器人公司机会,尽管被告知有90%可能资金打水漂[8] - 在2025年世界机器人运动大会后,获奖机器人公司获得巨额投资,例如宇树科技获红杉中国7亿元人民币投资,北京银河通用获真格基金11亿元人民币投资和500万元赛事补贴,北京人形机器人创新中心获IDG的1.5亿元人民币投资[22] - 松延动力在获得机器人半程马拉松亚军的两个月后,合同额超过一个亿,但订单仍集中在教育、科研、文旅和商业演出领域[22] - 有公司被指技术含量低且销量存疑,但股票翻了6倍[23] 商业模式与销售困境 - 机器人租赁行业应运而生,客户主要为景区、学校、政府机构、企事业单位,需求是让机器人在工作人员遥控下进行挥手、行走、跳舞等表演[18][19] - 租赁市场价格内卷严重,平日租金从8000元/天跌至5000元/天,部分公司因接不到订单而退出[21] - 人形机器人对个人用户销量极低,主要因价格高昂(数十万至上百万元人民币)且无法解决实际家庭问题,如照顾老人存在安全隐患,仅少数家庭会将其作为教育玩具购买[14] - 历史上机器人产品常因“无用”而难卖,例如2015年的送餐机器人因“无接触配送”概念未普及,视频开会机器人因手机App普及而失去痛点[11] - 目前真正盈利的人形机器人是擦边的情趣机器人,顶配价格约1.6万元人民币,2024年底公测的200个AI情趣娃娃全部售罄,公司预计2025年销量增长30%[17] 技术挑战与成本问题 - 人形机器人技术尚不成熟,无法理解并处理人类日常复杂事务,电池续航工作时长未超过3小时[5][14] - 早期机器人开发成本高昂,定制模具成本数百万元人民币,传感器、计算装置、SLAM定位和电池等核心部件成本也很高[11] - 为控制成本使用便宜零部件导致产品质量问题,如螺丝与孔洞不匹配,机器人频繁死机,消费者新鲜感过后普遍退货[12][13] - 叠衣服被视为机器人最具挑战的任务之一,2025年人形机器人叠一条毛巾需近30秒(人类需5-10秒),且有20%掉落几率,连续操作速度更慢[24] 行业历史与公司生存 - 过去十年中国机器人领域有一半公司已消失,从盈利角度看没有一家机器人公司是可行的[16] - 机器人公司极其脆弱,例如一家陪伴机器人公司在疫情初期出货2万台后,因销量下滑、资金链断裂和生产中断而在几个月内倒闭[16] - 优必选机器人因先后4次上春晚而从众多公司中脱颖而出,获得资本持续投入,类似地,宇树科技也因上春晚和运动会获得关注与投资[21][22] 未来展望与形态争议 - 业内观点认为,人形机器人不能代表机器人的未来,它只是庞大领域的一部分,真正通用、能完成复杂任务的机器人还“远远没到时候”[26] - 有观点质疑人形形态的效率,认为两条腿不如轮子移动效率高,机械臂比人手更精细有力,让机器长成人样去干活可能是效率倒退[24] - 对机器人未来的理想预期是具备自主运动能力,能像人类一样交互并完美完成任务,但也有观点认为机器人不必一定“有用”,可以提供情绪价值[27] - Figure AI发布的第三代机器人Figure03被演示具备叠衣服、洗碗等家务自主性,售价2万美元(约14.5万元人民币)的NEO机器人号称全球首款能做家务的家用产品,但需面对任务失败时由真人通过摄像头遥控带来的隐私与安全问题[27][28]