Gen Matrix
搜索文档
开源1万小时具身智能数据,这家公司是为了什么?
具身智能之心· 2026-01-08 12:23
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么? 不是算法,不是硬件,而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。 因此为了整个具身智能探索加速,开源集合成为了大家的共同选择,从谷歌 Open-X Embodiment、智元 AgiBot Digital World,到智源 RoboCOIN 与它石智航的 World In Your Hands,都在试图构建更庞大、更完善的数据集合,并开源给到全行业。 但在 1 月 6 日,有一家公司将这件事做到新高度,进行了超过 1 万小时、接近百万 clips 的具身数据集合开放,这是行业最大规模、也是泛化程度最高的开源数据 集合,它就是 简智机器人的 "10Kh RealOmni-Open DataSet" 。 ( 下载地址为: https://huggingface.co/datasets/genrobot2025/10Kh-RealOmin-OpenData ,其他数据正在 ...
开源1万小时的具身智能数据?这家公司是为了什么
机器人大讲堂· 2026-01-07 17:06
想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌 面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么?不是算法,不是硬件,而是 数据 —— 海量的、来自真实 世界的、双手协同的、长程的、多模态的 高质量 数据。 因此为了整个具身智能探索加速,开源集合成为了大家的共同选择,从谷歌 Open-X Embodiment 、智元 AgiBot Digital World ,到智源 RoboCOIN 与它石智航的 World In Your Hands ,都在试图构建更庞大、 更完善的数据集合,并开源给到全行业。 而在今年 1 月 6 日,有一家公司将开源数据推向了新的高度 —— 简智机器人 发布了目前行业规模最大、泛 化 程度最高 的开源具身数据集 " 10Kh RealOmni-Open DataSet " ,进行了超过 1 万小时、接近百万 clips 的具身数据集合开放 。 首先需要它具备 足够强的 " 技能深度 " ,在简智开源数据集合中,没有选择去发散的扩充技能数量,而是聚 焦在 10 个常见家庭任务集合中,从而对应 每一项技能都有超过 1 万 Clips 规模 的数 ...
开源1万小时具身智能数据,这家公司是为了什么?
机器之心· 2026-01-06 17:38
文章核心观点 - 简智机器人开源了名为“10Kh RealOmni-Open DataSet”的具身智能数据集,其规模超过1万小时、接近百万clips,是行业最大规模、泛化程度最高的开源数据集合,旨在通过数据共享加速整个具身智能行业的发展 [1] 数据集概况与规模 - 数据集总体规模超过1万小时,接近百万clips,体量已超越许多具身公司自身储备的数据 [1] - 数据集聚焦10个常见家庭任务,每项技能都有超过1万Clips的数据覆盖,是单个技能数据量行业最多的集合 [4] - 数据存储总容量为95 TB [5] - 数据集中99.2%为双手、长程任务,平均clips长度为1分37秒(210.0秒) [5] 数据质量与特性 - 数据采集画面分辨率为1600*1296,帧率为30fps,使用大视场角鱼眼相机,保证全方位录制环境与操作细节 [4][5] - 通过高精度IMU硬件和云端重建,将操作轨迹精度提升至亚厘米级别(轨迹真值误差小于1cm),远超行业常见的厘米级精度 [4][13] - 数据模态丰富,包含夹爪开合角度、位移等信息,并具备触觉阵列空间数据(分辨率1毫米) [4][5] - 数据来自3000个真实家庭规模采集,场景、目标和人员操作自然多样,弥补了传统“数采工厂”方案过于单一的问题 [7] 数据生产链条与方法论 - 公司构建了从采集设备到云端平台,再到数据二次迭代的完整闭环数据生产链条 [9] - **采集设备 (Gen DAS Gripper)**:全栈自研ISP图像处理与CMOS传感器,保证图像高质量;易于快速部署,无需场地布置;基于车规级IMU实现双手设备同步,异构数据时间误差小于1ms;具备超强压缩能力,将数据体积压缩至原大小的2%,并支持分钟级快速上传 [11][12][13] - **中枢数据平台 (Gen Matrix)**:具备高精度轨迹还原与环境重建能力(轨迹真值误差小于1cm);能对分散设备数据进行同步与清洗;具备自动化标注、切片等高并发处理能力 [13] - **自动化数据产线 (Gen ADP)**:将标注、加工流程自动化,可在2小时内完成从采集到处理的全过程,实现数据规模化、自动化生产 [13] - 凭借该数据生产体系,公司在2个月内积累了近百万小时规模的数据,且数据量每天以接近万小时规模增长 [9][13] 开源动机与行业影响 - 开源大规模高质量数据能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控,加速具身智能从实验室走向规模化落地 [16] - 公司后续计划继续加强数据基建,推出更多有益于行业的数据与服务,旨在形成“数据共享 — 模型优化 — 场景落地 — 数据反哺”的正向循环 [16]
具身智能的数据困境?简智正以闭环飞轮推进解决
具身智能之心· 2025-12-17 18:00
行业核心痛点与共识 - 高质量真机数据是决定具身智能模型能力上限的关键,但当前行业面临高质量真机数据极度匮乏的困境[3] - 模仿学习(如看视频)必要,但真正掌握技能,真机数据是关键[3] - 仿真、人类视频等替代数据存在核心能力妥协,唯有真实、海量的物理世界交互数据才是通往通用机器人智能的必经之路[6] - 传统数据采集方案存在显著短板:Aloha设备两班倒每天仅产生4-5小时有效数据,要达到规模化数据集(如Gen-0)规模需500套同类设备同时运转,实操难度大[6] - 视频数据训练的模型缺乏真实场景实操经验,传统遥操和UMI数采方案则存在成本高、部署难或数据质量参差不齐的问题[6] 公司核心理念与战略 - 公司核心理念是“具身智能源于人、回归人”[3] - 公司采用全栈自研的“产品+产线”双轨战略,搭建“人类技能数字化 - 云端AI数据治理 - 机器人应用”的完整闭环[3] - 公司推出Gen Data 1+x产品矩阵,旨在从源头打通物理世界与数字世界的数据壁垒[7] 数据采集解决方案:Gen Das - Gen Das是一款无感可穿戴采集设备,以“头+手”为核心交互触点,瞄准“夹抓类”核心技能[9] - 设备重量仅470g,开机即用,贴合人体自然曲线设计,便于长时间操作以捕捉真实动作反馈[9] - 设备性能参数针对解决采集难题:指尖、指腹覆盖超过30000个触觉检测点,最小压感仅7g[12];搭配毫秒级、亚毫米级的关节追踪[17];采用全栈自研优化的ISP图像处理与CMOS传感器[17];具备“双手协同”“手眼协同”高精度坐标对齐技术,时间误差小于1ms,轨迹误差小于1cm[17];具备将数据体积压缩至原大小2%的超强压缩能力,可实现分钟级快速上传[17] 技能落地与硬件闭环:Gen Controller - Gen Controller作为技能落地端,与Gen Das采用同构设计,理论上可实现人类技能向机器人终端的快速迁移[14] - 该设计旨在构建“源于人的采集”到“回归人的应用”的硬件闭环,解决数据与应用脱节的行业通病[14] 数据处理与治理体系 - 具身智能领域存在Scaling Law(数据规模与模型能力正相关),需要高效的数据治理体系[15] - 公司通过两大核心引擎(Gen Matrix与Gen ADP)解决海量数据转化为模型“优质燃料”的难题[15] 数据智能平台:Gen Matrix - Gen Matrix是数据智能平台中枢,承担“迭代发动机”角色[18] - 功能包括:根据模型需求对海量数据进行定制化清洗、自动切片标注、环境重建;对模型结果进行评测并自动生成二次数据需求,形成“采集-处理-评测-再采集”的智能循环[18] - 具备高精准还原能力,轨迹真值误差小于1cm[18] 数据产线:Gen ADP - Gen ADP是具身智能数据产线,旨在实现千万人员技能数据化,部署灵活,可快速在家庭、工厂、医疗等场所落地[19] - 目标为实现“低成本、高效、高保真、自动闭环”的数据生产[19] - 从效率看,采集后2小时内即可向模型提供新鲜、高质量的加工数据,大幅短于传统几天甚至几周的周期[23] - 目前该产线每日高质量数据产出量超过10万clips,数据时长增长超1万小时且仍在持续加速[23] - 数据显示,平均3-6秒即可从真实家庭中完成一条高质量数据的收集[22] 公司融资与数据资产 - 公司成立仅4个月,已累计完成3轮融资,融资金额超2亿元,是细分赛道融资进展最快的企业之一[24] - 融资历程:种子轮由BV百度风投领投,Momenta、九识智能、星海图跟投;种子+轮由速腾聚创领投,BV百度风投跟投;天使轮由顺为资本领投,初心资本、BV百度风投超额跟投[24] - 公司已积累超百万小时真实场景数据,覆盖家庭、工业、医疗等领域的500余种技能场景[24] 团队与技术壁垒 - 核心成员多来自Momenta、理想汽车、华为、斯坦福、Deepmind等头部企业与科研机构,在数据处理、算法研发、硬件工程等领域具备深厚积累[26] - 不少成员曾在智驾领域取得过行业突破性成果,其经验可为具身智能数据技术研发提供参考[26] 市场前景与商业化 - 具身智能整体市场预计从2025年的44亿美元飙升至2030年的230亿美元,年复合增长率高达39%[27] - 具身数据服务市场增速更快,预计到2031年全球市场规模将达到67亿美元[27] - 公司已与30余家行业头部具身智能企业建立深度合作关系,业务覆盖全球市场[28] - 公司海外收入占比超70%[28]