Workflow
1X World Model(1XWM)
icon
搜索文档
人形机器人行业周报:1X发布全新世界模型,人形机器人企业融资加速-20260118
国海证券· 2026-01-18 17:34
行业投资评级 - 维持人形机器人行业“推荐”评级 [1][12] 核心观点 - 电动化与智能化浪潮下,国内外人形机器人产品问世并不断迭代,有望开辟比汽车更广阔的市场空间,人形机器人产业链将迎来“从0至1”的重要投资机遇 [12] - 人形机器人产业或迎来“ChatGPT时刻” [12] - 机器人从本体到零部件商持续开展产品迭代,同时快速推进业务合作和场景应用,积极探索人形机器人规模化量产和商业落地 [12] 产业动态与融资事件 - 自变量机器人完成10亿元A++轮融资,投资方包括字节跳动、红杉中国、深创投等,是深创投AI基金成立以来的第一笔投资 [2] - 未来不远机器人完成2亿元人民币天使轮融资,由真格基金领投,其产品已进入超200个真实家庭,累计提供超过21238小时家庭服务,样机试用满意度达96.8% [3] - 机器人租赁平台擎天租获得由高瓴创投领投的种子轮融资,平台用户已突破20万,日均订单超过200单 [9] 技术进展与产品发布 - 挪威人形机器人公司1X发布全新世界模型“1X World Model (1XWM)”,用于提升机器人对物理世界的理解与推理能力,主要应用于其量产的人形机器人Neo [4] - 逐际动力发布全球首个让机器人实现“边思考边干活”的具身Agentic OS,系统命名为LimXCOSA,旨在解决“知易行难”的核心痛点 [4][7] - 清华大学与枢途科技联合推出RoboWheel数据引擎,可将普通相机拍摄的视频转化为机器人训练数据,并构建了包含15万条轨迹的多模态数据集HORA [9] 政策与市场环境 - 民政部等八部门共同出台《关于培育养老服务经营主体促进银发经济发展的若干措施》,鼓励养老服务机器人产业发展,促进跨产业协同与技术融合 [8] - 美国国防部长表示,马斯克旗下xAI公司开发的AI聊天机器人“格罗克”(Grok)将被引入五角大楼网络 [10][11] 行业相对表现 - 截至2026年01月16日,电力设备行业近1个月、3个月、12个月表现分别为9.9%、7.5%、55.1%,同期沪深300指数表现分别为5.2%、2.5%、24.5% [5] 公司业绩公告 - 德昌股份预计2025年实现归母净利润16,000万元到20,000万元,同比减少61%到51% [12] - 景业智能预计2025年实现归母净利润-2,750万元左右,出现亏损 [12] 重点关注个股 - 报告建议关注在人形机器人核心部件领域有积淀的企业,列举了包括三花智控、拓普集团、绿的谐波、鸣志电器、柯力传感等在内的多家公司,涉及执行器总成、丝杠、减速器、电机、传感器、芯片、结构件等环节 [12]
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
具身智能之心· 2026-01-15 08:32
文章核心观点 - 1X公司为其人形机器人NEO推出了全新的“1X World Model”大脑,标志着机器人控制范式从依赖海量机器人数据训练的传统视觉语言动作模型,转向了基于互联网规模视频预训练的世界模型,使机器人能够通过“想象”任务过程来规划动作,显著提升了对新任务和环境的泛化能力 [4][6][13] 1X World Model的技术原理与架构 - 技术范式转变:1XWM是一种基于视频预训练的世界模型,与直接从图像-语言输入预测动作的VLA模型不同,它通过文本条件下的视频生成来推导机器人动作,从而能够利用互联网视频中的真实世界动力学规律,无需大规模机器人数据预训练即可泛化到新物体、新运动和新场景 [12][13] - 核心组件:系统包含一个140亿参数的文本条件扩散模型作为世界模型主干,以及一个逆动力学模型,前者负责高保真预测场景演化,后者负责从生成视频中提取精确的动作序列 [18][19] - 训练流程:采用多阶段训练策略,先在互联网规模视频数据上预训练,再用900小时人类第一视角视频进行中期训练,最后用70小时NEO机器人数据进行具身微调,以适配其视觉外观与运动学特性 [18][20] 1X World Model的能力与表现 - 任务泛化:搭载1XWM的NEO能够执行超出既有训练经验的任务,包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体,以及完成需要全新动作模式的任务,如清洁和双手协调操作 [25][26][28][30] - 执行一致性:模型生成的视频与机器人实际执行过程在视觉表现上高度一致,表明其在空间结构理解、运动学约束建模及物理一致性方面具备较强能力 [25][26] - 成功率评估:在系统性实物实验中,1XWM在多种动作原语上保持了稳定的成功率,但倒液体、绘图等对精细操作要求高的任务仍具挑战性,每类任务重复执行30次 [32] - 质量与成功率关联:生成视频的质量与任务成功率存在相关性,例如生成错误视频时成功率几乎为0,通过并行生成多个视频并选择质量最佳者(可借助VLM评估器自动化),可提高任务成功率 [34] 关键训练要素与消融分析 - 字幕上采样:利用VLM为第一视角数据集生成更详细的描述性字幕用于训练,在所有评测数据集上均提升了视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更匹配,能更清晰引导动作生成 [18][36][41] - 第一视角人类数据:引入900小时人类第一视角视频进行中期训练,显著提升了模型在新任务和分布外场景下的生成质量,为操作任务提供了可迁移的通用先验,且与NEO的类人具身高度契合 [20][36][41] - 数据平衡:在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角人类数据可能会稀释后训练数据分布,对效果提升有限甚至略有负面影响 [42] 市场热度与行业意义 - 技术演示引发高度关注:1XWM的发布推文浏览量已突破500万,显示市场对机器人智能范式进步的高度兴趣 [8] - 行业意义:该技术标志着机器人智能开始直接受益于视频预训练的规模化能力跃迁,为实现通用家庭机器人提供了新的技术路径,其成功离不开为高保真人类具身到机器人具身迁移而设计的整套硬件系统支持 [13]