Workflow
Gen DAS Gripper
icon
搜索文档
开源1万小时具身智能数据,这家公司是为了什么?
具身智能之心· 2026-01-08 12:23
文章核心观点 - 高质量、大规模的真实世界数据是推动具身智能发展的关键瓶颈,而开源数据集是加速行业探索的共同选择 [1] - 简智机器人公司开源的“10Kh RealOmni-Open DataSet”是行业最大规模、泛化程度最高的具身数据集合,其核心价值在于数据规模大、技能深度强、质量高、场景泛化好 [1][4] - 支撑该大规模高质量数据集发布的,是公司一套完整的、高效的数据生产链条,包括采集设备、中枢数据平台和自动化数据产线 [9][11][13] - 持续、加速地开源高质量数据,有助于填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同,从而加速具身智能从实验室走向规模化落地 [16] 开源数据集详情 - **总体规模**:数据集规模超过1万小时,接近百万个clips,是行业最大规模的开源具身数据集合 [1] - **技能深度**:数据集聚焦于10个常见家庭任务,确保每项技能都有超过1万clips的数据覆盖,实现了单个技能数据量的行业最多 [4] - **数据质量与模态**: - 视频分辨率为1600*1296,帧率为30fps,采用大视场角鱼眼相机,保证环境与操作细节的清晰录制 [4] - 通过高精度IMU硬件和云端重建,将操作轨迹精度提升至亚厘米级别,远超行业常见的厘米级 [4] - 数据包含夹爪开合角度、位移等模态信息,并配备1毫米空间分辨率的触觉阵列 [4][5] - **任务特性**:数据集中99.2%为双手、长程任务,平均每个clip长度为1分37秒(210秒),记录了从开始到结束的完整动作过程 [5] - **场景泛化**:数据来自3000个真实家庭规模采集,涵盖了同一技能下不同的场景、目标类型和人员自然操作,避免了传统“数采工厂”方案的单一性问题 [7] 数据生产链条与方法论 - **采集设备 (Gen DAS Gripper)**: - 易于快速部署,无需特殊场地布置 [11] - 采用全栈自研的ISP图像处理和CMOS传感器,保证图像高质量 [11] - 基于车规级IMU实现双手设备同步,异构数据时间误差小于1毫秒 [12] - 具备超强压缩能力,将数据体积压缩至原大小的2%,并支持分钟级快速上传 [13] - **中枢数据平台 (Gen Matrix)**: - 具备高精度轨迹还原与环境重建能力,轨迹真值误差小于1厘米 [13] - 能对异构数据进行同步与清洗,并具备自动化标注、切片等高并发处理能力 [13] - **自动化数据产线 (Gen ADP)**: - 实现了从采集到处理的自动化流水线,可在2小时内完成全过程 [13] - 支撑公司累计完成百万小时规模数据,并以每天近万小时的速度增长 [13] 开源数据的行业意义 - 当前行业对数据格式、规范尚未成熟,影响了模型方案的进步速度 [16] - 持续、加速地开源数据能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控 [16] - 开源行为旨在形成“数据共享 — 模型优化 — 场景落地 — 数据反哺”的正向循环,加速具身智能规模化落地 [16]
开源1万小时的具身智能数据?这家公司是为了什么
机器人大讲堂· 2026-01-07 17:06
想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌 面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么?不是算法,不是硬件,而是 数据 —— 海量的、来自真实 世界的、双手协同的、长程的、多模态的 高质量 数据。 因此为了整个具身智能探索加速,开源集合成为了大家的共同选择,从谷歌 Open-X Embodiment 、智元 AgiBot Digital World ,到智源 RoboCOIN 与它石智航的 World In Your Hands ,都在试图构建更庞大、 更完善的数据集合,并开源给到全行业。 而在今年 1 月 6 日,有一家公司将开源数据推向了新的高度 —— 简智机器人 发布了目前行业规模最大、泛 化 程度最高 的开源具身数据集 " 10Kh RealOmni-Open DataSet " ,进行了超过 1 万小时、接近百万 clips 的具身数据集合开放 。 首先需要它具备 足够强的 " 技能深度 " ,在简智开源数据集合中,没有选择去发散的扩充技能数量,而是聚 焦在 10 个常见家庭任务集合中,从而对应 每一项技能都有超过 1 万 Clips 规模 的数 ...
开源1万小时具身智能数据,这家公司是为了什么?
机器之心· 2026-01-06 17:38
文章核心观点 - 简智机器人开源了名为“10Kh RealOmni-Open DataSet”的具身智能数据集,其规模超过1万小时、接近百万clips,是行业最大规模、泛化程度最高的开源数据集合,旨在通过数据共享加速整个具身智能行业的发展 [1] 数据集概况与规模 - 数据集总体规模超过1万小时,接近百万clips,体量已超越许多具身公司自身储备的数据 [1] - 数据集聚焦10个常见家庭任务,每项技能都有超过1万Clips的数据覆盖,是单个技能数据量行业最多的集合 [4] - 数据存储总容量为95 TB [5] - 数据集中99.2%为双手、长程任务,平均clips长度为1分37秒(210.0秒) [5] 数据质量与特性 - 数据采集画面分辨率为1600*1296,帧率为30fps,使用大视场角鱼眼相机,保证全方位录制环境与操作细节 [4][5] - 通过高精度IMU硬件和云端重建,将操作轨迹精度提升至亚厘米级别(轨迹真值误差小于1cm),远超行业常见的厘米级精度 [4][13] - 数据模态丰富,包含夹爪开合角度、位移等信息,并具备触觉阵列空间数据(分辨率1毫米) [4][5] - 数据来自3000个真实家庭规模采集,场景、目标和人员操作自然多样,弥补了传统“数采工厂”方案过于单一的问题 [7] 数据生产链条与方法论 - 公司构建了从采集设备到云端平台,再到数据二次迭代的完整闭环数据生产链条 [9] - **采集设备 (Gen DAS Gripper)**:全栈自研ISP图像处理与CMOS传感器,保证图像高质量;易于快速部署,无需场地布置;基于车规级IMU实现双手设备同步,异构数据时间误差小于1ms;具备超强压缩能力,将数据体积压缩至原大小的2%,并支持分钟级快速上传 [11][12][13] - **中枢数据平台 (Gen Matrix)**:具备高精度轨迹还原与环境重建能力(轨迹真值误差小于1cm);能对分散设备数据进行同步与清洗;具备自动化标注、切片等高并发处理能力 [13] - **自动化数据产线 (Gen ADP)**:将标注、加工流程自动化,可在2小时内完成从采集到处理的全过程,实现数据规模化、自动化生产 [13] - 凭借该数据生产体系,公司在2个月内积累了近百万小时规模的数据,且数据量每天以接近万小时规模增长 [9][13] 开源动机与行业影响 - 开源大规模高质量数据能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控,加速具身智能从实验室走向规模化落地 [16] - 公司后续计划继续加强数据基建,推出更多有益于行业的数据与服务,旨在形成“数据共享 — 模型优化 — 场景落地 — 数据反哺”的正向循环 [16]