PSI框架
搜索文档
中国具身屠榜全球,10万小时数据炸场,PI、英伟达集体破防
36氪· 2026-04-13 09:02
行业现状与挑战 - 具身智能领域面临一个核心焦虑:依赖真机遥操作数据进行模型训练和产业落地的路径可能难以为继 [1] - 真机遥操作数据成本高昂,采集一小时数据动辄花费数百元,且需要搭建专业动捕环境 [1] - 数据采集速度是硬伤,人工遥控机械臂的节奏难以跟上真实生产节拍,无法同时支撑大规模训练与产业落地需求 [1] 替代路径的探索 - 行业探索利用人类在真实作业场景中的海量高精细操作数据作为替代方案 [2] - 该路径面临两大核心难点:人手与机械手形态差异导致操作无法直接平移;仅靠第一视角视频还原人手动作精度不足,难以支撑高精细任务 [3][4][5] 灵初智能的解决方案:PSI框架与数据 - 公司推出了基于10万小时人类操作数据构建的PSI框架,该框架包含两个核心大模型 [6] - 策略模型Psi-R2负责学习“任务该怎么做”,世界模型Psi-W0负责补充“换种做法会怎样”,共同将人类操作转化为机器人可执行的动作 [6] - 公司同时披露了规模近10万小时的人类数据集,以及1000小时的开源数据集 [7] 数据策略与价值重估 - 公司判断,具身智能长期缺乏“存量数据”,机器人学习无法像大模型一样从互联网获取语料,必须从现实世界获取 [10][11] - 人类数据的价值被重新评估,其吸引力在于:来源天然丰富;数据更贴近真实作业,包含任务目标、动作细节和节拍信息 [13] - 公司预训练同时使用真机数据和人类数据,其中真机数据来自Psi-MobiDex数据集,共5417小时;人类数据总规模达95472小时,覆盖294种场景、4821种任务、1382种物体 [9] 核心技术:数据处理与模型协同 - 公司采用“Raw Data In, Raw Data Out”的朴素路线,将人手关节通过运动学公式计算成机械手关节,图像数据原封不动直接输入模型,减少人为处理 [19] - 该路线已取得成效,Psi-R2完成预训练后,仅需少于100条轨迹的真机数据微调,即可执行手机装配、工业包装、纸盒折叠等长时序、高精度任务 [19] - 世界模型Psi-W0是一个动作条件型世界模型,它接收图像、语言指令和机器人动作轨迹,输出未来场景的视频预测,其训练中额外加入了约30%的失败样本 [23][25][28] - Psi-W0在系统中承担评估与数据转换两层作用,它通过推演轨迹来检验策略学习效果,并直接参与将人类数据转化为机器人可执行数据的过程 [30][32][33] 数据质量的核心维度 - 公司认为,决定数据价值的核心因素不是数量,而是信噪比,低信噪比数据会拖垮训练效果 [41][42] - 在数据分布上,优先级为:任务多样性 > 物体多样性 >> 场景多样性;在感知模态上,优先级为:精准3D位姿 >> 触觉模态 > 2D图像特征 [42] - 仅靠纯第一视角视频恢复的人手操作轨迹误差在毫米级,引入自研外骨骼手套后,精度可压至亚毫米级,这对手机装配等精细任务至关重要 [47] - 公司重视触觉数据,采用Mask Training方式让模型预测触觉信号,引入触觉后,Psi-W0的表现和预判能力明显提升 [49][50] - 人类数据的另一大价值在于其节拍更贴近真实工厂的标准作业流程,人类操作节拍可逼近机械臂的运动极限,而遥操作往往只能达到其上限的800甚至更低 [52] 成果验证与战略意图 - 在美国Allen Institute for AI发起的MolmoSpaces榜单中,灵初智能的Psi-R2位列总榜第一,表现超过具身大模型标杆π及英伟达GEAR等主流方案 [38] - 公司开源的1000小时数据集包含两类:高精度数据(轨迹高度对齐真机)和主攻大规模扩展的数据(精度可控,侧重数据量与泛化空间),二者结合形成训练闭环 [54] - 此次发布的核心在于展示了一条完整的训练路径:当遥操作数据不足时,将人类数据作为预训练主干,并通过双模型架构与转换机制实现高效学习与迁移 [54] - 公司的战略意图是抢占下一阶段具身智能训练框架的卡位战,而不仅是一次榜单排名 [54]