开源1万小时具身智能数据,这家公司是为了什么?
具身智能之心·2026-01-08 12:23

文章核心观点 - 高质量、大规模的真实世界数据是推动具身智能发展的关键瓶颈,而开源数据集是加速行业探索的共同选择 [1] - 简智机器人公司开源的“10Kh RealOmni-Open DataSet”是行业最大规模、泛化程度最高的具身数据集合,其核心价值在于数据规模大、技能深度强、质量高、场景泛化好 [1][4] - 支撑该大规模高质量数据集发布的,是公司一套完整的、高效的数据生产链条,包括采集设备、中枢数据平台和自动化数据产线 [9][11][13] - 持续、加速地开源高质量数据,有助于填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同,从而加速具身智能从实验室走向规模化落地 [16] 开源数据集详情 - 总体规模:数据集规模超过1万小时,接近百万个clips,是行业最大规模的开源具身数据集合 [1] - 技能深度:数据集聚焦于10个常见家庭任务,确保每项技能都有超过1万clips的数据覆盖,实现了单个技能数据量的行业最多 [4] - 数据质量与模态: - 视频分辨率为1600*1296,帧率为30fps,采用大视场角鱼眼相机,保证环境与操作细节的清晰录制 [4] - 通过高精度IMU硬件和云端重建,将操作轨迹精度提升至亚厘米级别,远超行业常见的厘米级 [4] - 数据包含夹爪开合角度、位移等模态信息,并配备1毫米空间分辨率的触觉阵列 [4][5] - 任务特性:数据集中99.2%为双手、长程任务,平均每个clip长度为1分37秒(210秒),记录了从开始到结束的完整动作过程 [5] - 场景泛化:数据来自3000个真实家庭规模采集,涵盖了同一技能下不同的场景、目标类型和人员自然操作,避免了传统“数采工厂”方案的单一性问题 [7] 数据生产链条与方法论 - 采集设备 (Gen DAS Gripper): - 易于快速部署,无需特殊场地布置 [11] - 采用全栈自研的ISP图像处理和CMOS传感器,保证图像高质量 [11] - 基于车规级IMU实现双手设备同步,异构数据时间误差小于1毫秒 [12] - 具备超强压缩能力,将数据体积压缩至原大小的2%,并支持分钟级快速上传 [13] - 中枢数据平台 (Gen Matrix): - 具备高精度轨迹还原与环境重建能力,轨迹真值误差小于1厘米 [13] - 能对异构数据进行同步与清洗,并具备自动化标注、切片等高并发处理能力 [13] - 自动化数据产线 (Gen ADP): - 实现了从采集到处理的自动化流水线,可在2小时内完成全过程 [13] - 支撑公司累计完成百万小时规模数据,并以每天近万小时的速度增长 [13] 开源数据的行业意义 - 当前行业对数据格式、规范尚未成熟,影响了模型方案的进步速度 [16] - 持续、加速地开源数据能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控 [16] - 开源行为旨在形成“数据共享 — 模型优化 — 场景落地 — 数据反哺”的正向循环,加速具身智能规模化落地 [16]

开源1万小时具身智能数据,这家公司是为了什么? - Reportify