Workflow
Gen DAS Gripper
icon
搜索文档
开源1万小时具身智能数据,这家公司是为了什么?
具身智能之心· 2026-01-08 12:23
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么? 不是算法,不是硬件,而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。 因此为了整个具身智能探索加速,开源集合成为了大家的共同选择,从谷歌 Open-X Embodiment、智元 AgiBot Digital World,到智源 RoboCOIN 与它石智航的 World In Your Hands,都在试图构建更庞大、更完善的数据集合,并开源给到全行业。 但在 1 月 6 日,有一家公司将这件事做到新高度,进行了超过 1 万小时、接近百万 clips 的具身数据集合开放,这是行业最大规模、也是泛化程度最高的开源数据 集合,它就是 简智机器人的 "10Kh RealOmni-Open DataSet" 。 ( 下载地址为: https://huggingface.co/datasets/genrobot2025/10Kh-RealOmin-OpenData ,其他数据正在 ...
开源1万小时的具身智能数据?这家公司是为了什么
机器人大讲堂· 2026-01-07 17:06
想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌 面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么?不是算法,不是硬件,而是 数据 —— 海量的、来自真实 世界的、双手协同的、长程的、多模态的 高质量 数据。 因此为了整个具身智能探索加速,开源集合成为了大家的共同选择,从谷歌 Open-X Embodiment 、智元 AgiBot Digital World ,到智源 RoboCOIN 与它石智航的 World In Your Hands ,都在试图构建更庞大、 更完善的数据集合,并开源给到全行业。 而在今年 1 月 6 日,有一家公司将开源数据推向了新的高度 —— 简智机器人 发布了目前行业规模最大、泛 化 程度最高 的开源具身数据集 " 10Kh RealOmni-Open DataSet " ,进行了超过 1 万小时、接近百万 clips 的具身数据集合开放 。 首先需要它具备 足够强的 " 技能深度 " ,在简智开源数据集合中,没有选择去发散的扩充技能数量,而是聚 焦在 10 个常见家庭任务集合中,从而对应 每一项技能都有超过 1 万 Clips 规模 的数 ...
开源1万小时具身智能数据,这家公司是为了什么?
机器之心· 2026-01-06 17:38
文章核心观点 - 简智机器人开源了名为“10Kh RealOmni-Open DataSet”的具身智能数据集,其规模超过1万小时、接近百万clips,是行业最大规模、泛化程度最高的开源数据集合,旨在通过数据共享加速整个具身智能行业的发展 [1] 数据集概况与规模 - 数据集总体规模超过1万小时,接近百万clips,体量已超越许多具身公司自身储备的数据 [1] - 数据集聚焦10个常见家庭任务,每项技能都有超过1万Clips的数据覆盖,是单个技能数据量行业最多的集合 [4] - 数据存储总容量为95 TB [5] - 数据集中99.2%为双手、长程任务,平均clips长度为1分37秒(210.0秒) [5] 数据质量与特性 - 数据采集画面分辨率为1600*1296,帧率为30fps,使用大视场角鱼眼相机,保证全方位录制环境与操作细节 [4][5] - 通过高精度IMU硬件和云端重建,将操作轨迹精度提升至亚厘米级别(轨迹真值误差小于1cm),远超行业常见的厘米级精度 [4][13] - 数据模态丰富,包含夹爪开合角度、位移等信息,并具备触觉阵列空间数据(分辨率1毫米) [4][5] - 数据来自3000个真实家庭规模采集,场景、目标和人员操作自然多样,弥补了传统“数采工厂”方案过于单一的问题 [7] 数据生产链条与方法论 - 公司构建了从采集设备到云端平台,再到数据二次迭代的完整闭环数据生产链条 [9] - **采集设备 (Gen DAS Gripper)**:全栈自研ISP图像处理与CMOS传感器,保证图像高质量;易于快速部署,无需场地布置;基于车规级IMU实现双手设备同步,异构数据时间误差小于1ms;具备超强压缩能力,将数据体积压缩至原大小的2%,并支持分钟级快速上传 [11][12][13] - **中枢数据平台 (Gen Matrix)**:具备高精度轨迹还原与环境重建能力(轨迹真值误差小于1cm);能对分散设备数据进行同步与清洗;具备自动化标注、切片等高并发处理能力 [13] - **自动化数据产线 (Gen ADP)**:将标注、加工流程自动化,可在2小时内完成从采集到处理的全过程,实现数据规模化、自动化生产 [13] - 凭借该数据生产体系,公司在2个月内积累了近百万小时规模的数据,且数据量每天以接近万小时规模增长 [9][13] 开源动机与行业影响 - 开源大规模高质量数据能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控,加速具身智能从实验室走向规模化落地 [16] - 公司后续计划继续加强数据基建,推出更多有益于行业的数据与服务,旨在形成“数据共享 — 模型优化 — 场景落地 — 数据反哺”的正向循环 [16]