Ego-centric数据
搜索文档
对标英伟达EgoScale数据路径,清华系孵化星忆科技拿到首轮融资|早起看早期
36氪· 2026-03-30 08:21
行业趋势与范式转移 - 具身智能数据层的全球竞争焦点已从单纯追求数据规模,转向谁能将Human-centric/Ego-centric数据转化为高自由度、高精度、低成本、可训练的数据资产 [4][36] - 行业正经历明确的数据范式迁移,全球头部玩家几乎同时将目光转向以人类第一视角、真实物理交互和多模态感知为核心的Ego-centric数据采集路线 [4][36] - 驱动这一转变的核心原因是,机器人学习的最终目标是在真实物理世界完成正确动作,而第三人称视频、仿真数据和纯遥操数据分别存在缺少接触细节、难以覆盖物理长尾、昂贵且稀缺的局限性 [4][37] 主要市场参与者与动态 - NVIDIA Research在2026年发布EgoScale数据与训练框架,使用20,854小时带标注的第一人称人类视频,验证了数据规模与验证损失间接近对数线性的缩放规律 [3][36] - 公司1X通过Sunday项目采集百万小时级家庭场景视频,光轮智能采用混合路线宣称累计交付突破100万小时数据,估值飙向十亿美金 [3][36] - 创业公司星忆科技完成千万级首轮融资,由水木创投领投,泉士资本、钥卓资本等跟投,枫承资本担任融资顾问 [5][38] 公司星忆科技概况 - 公司定位为具身智能的物理数据基础设施,旨在通过自研高精度穿戴设备与数据引擎,将人类生产力经验转化为机器人可学习的数字养料 [8][40] - 公司孵化自清华大学计算机系,创始人宋知珩曾任智元机器人全尺寸双足人形整机产品负责人及数采与遥操体系负责人,也是镁伽机器人前20号员工,有五次0到1新产品开发及过亿营收经验 [5][38] - 团队技术班底来自清华、北航等高校及埃夫特、海康威视等产业专家,在顶级会议期刊发表论文70余篇,承担多项国家级科研项目 [6][39] 公司核心技术路径与差异化 - 对标英伟达EgoScale,但采取差异化路线:不做二指夹爪式UMI,追求高自由度基础上的高精度;不只采集视觉,而是融合视觉、触觉与姿态;不只提供工具,而是打通从采集到训练的完整闭环 [6][39] - 公司认为真正有价值的真机数据需同时满足五个条件:真实、精准、高自由度、低成本、可训练,当前优势集中在精度与自由度 [6][39] - 与EgoScale的区别在于融合了更多模态(如触觉),并具备更高的场景兼容性,可实现“EgoScale in the wild”,能在真实生产场景中无约束采集 [11][45] 技术细节与能力 - 公司核心技术能力包括多模态采集、细粒度手部理解和高精度标注,手部理解被视为L4-L5级别技术,人体姿态为L2级别 [12][14][47] - 精细操作需要三维视觉、身体姿态及触觉信息,触觉提供接触状态、摩擦变化和微滑移信息,是视觉终点和力控起点 [15][48] - 公司能实现戴手套(包括黑色手套)情况下的高精度手势识别,解决了多模态融合中穿戴状态下稳定完成手部理解的关键难题 [16][49] - 数据引擎标注能力在长序列、强接触条件下可稳定达到毫米级精度,且比人类专家标注具备更强一致性,成本仅为传统人工标注的几百分之一 [17][50] 数据采集策略与成本 - 公司不依赖仿真数据,认为仿真在真实世界复杂接触任务中存在显著sim-to-real gap,仿真数据无法满足“真实”这一核心条件 [18][51] - 数据采集采用流式过程,采集员在真实产线佩戴穿戴套件操作,数据引擎实时捕捉并毫秒级对齐多模态信息,再通过离线工具链自动进行毫米级标注,形成高质量训练数据 [19][52] - 公司通过内嵌的“质量审计引擎”自动保证数据质量,并计划在今年陆续开源1000至10000小时的高精度数据集以推动行业共建 [20][53] 市场定位与商业模式 - 公司提出两个“金字塔”模型:能力金字塔中,决定系统上限的是作业智能层;数据金字塔中,越往上(如第一人称人类数据、真机遥操数据)数据量越小但价值密度越高,行业缺乏的是能进入复杂接触的高质量真实数据 [21][23][54][56] - 与UMI等路线的本质区别在于目标函数不同:UMI优先解决低门槛、可迁移,而公司优先解决在高自由度前提下,将决定精细操作上限的信号采全、采准、采成可训练资产 [24][57] - 商业模式清晰为To B,分三步走:服务高校/实验室、切入机器人本体与模型厂商、触达最终场景方,形成从数采工具到在线引擎再到场景落地的完整商业闭环,售卖穿戴硬件和数据集两类标准产品 [26][59] 行业竞争格局与展望 - 公司认为具身智能的核心竞争是将真实世界经验转化为机器人能力的系统效率竞争,其团队竞争力在于打通了学术、工程和产业间最难衔接的链路 [31][65] - 下一阶段行业拉开差距的关键在于谁能率先建立高标准数据资产的规模化生产能力,并形成从真实世界持续学习、回流、长出能力的系统 [32][65] - 公司预测具身智能落地时间表为“3年进工厂,5年进家庭”,工厂指特定场景单一任务正确率达99%以上,家庭需模型具备泛化能力,目前行业整体处于POC阶段,纯端到端方案准确率约70%–80% [30][64] - 关于数据规模,公司认为最终需求将落在一亿小时最高质量数据的量级,这些数据将形成“具身基因” [28][62] - 公司认为机器人行业需要国家队与产业生态抱团打造,而非单打独斗或简单站队 [29][63]
对标英伟达EgoScale数据路径,清华系孵化星忆科技拿到首轮融资|早起看早期
36氪· 2026-03-30 08:09
文章核心观点 - 具身智能行业正经历一场数据范式迁移,从追求大规模、第三人称数据转向追求高价值、高精度的Human-centric/Ego-centric(人类中心/第一人称视角)数据[5][6] - 高质量、可训练的真实物理交互数据是当前具身智能发展的核心瓶颈与关键基础设施,其价值在于将人类经验高效转化为机器人可学习的“数字养料”[6][11][13] - 星忆科技作为一家初创公司,通过自研多模态穿戴设备与数据引擎,专注于采集高精度、高自由度的Ego-centric数据,旨在成为具身智能的“物理数据基础设施”[6][8][11] 行业趋势与数据范式迁移 - 行业关注点从“谁采得更多”转向“谁能把Human-centric/Ego-centric数据真正做成高自由度、高精度、低成本、可训练的资产”[5] - 全球头部玩家将目光转向Human-centric data,其中Ego-centric(第一人称视角、真实物理交互和多模态感知)数据正迅速成为关键[5] - 英伟达在2026年发布EgoScale框架,使用20,854小时带动作标注的第一人称人类视频,验证了数据规模与验证损失间接近对数线性的scaling law[4] - 其他玩家如1X通过Sunday项目采集百万小时级家庭场景视频,光轮智能采用混合路线累计交付突破100万小时数据,估值飙向十亿美金[4] 星忆科技公司定位与融资情况 - 公司定位为“具身智能的物理数据基础设施”,核心是让机器人具备在真实复杂世界中完成精细操作的能力[11][12] - 公司近期完成千万级首轮融资,由清华系水木创投领投,泉士资本、神州通誉系钥卓资本等跟投[6] - 公司孵化自清华大学计算机系,创始人宋知珩曾任智元机器人全尺寸双足人形整机产品负责人,并负责相关数采与遥操体系建设[6] 技术路径与核心优势 - 技术路径对标英伟达EgoScale,但差异化在于:追求高自由度基础上的高精度;融合视觉、触觉与姿态多模态信号;打通从采集到训练的完整闭环[8] - 核心优势集中在精度与自由度两端,并致力于实现低成本与可训练性以实现规模化[8] - 团队技术班底来自清华、北航等高校及产业界,在相关领域发表顶级论文70余篇,承担多项国家级科研项目[7] 对Ego-centric数据价值的阐述 - EgoScale走红的核心在于验证了通过超大规模人类第一视角数据,实现人类行为到机器人操作能力高效迁移的路径[14] - 该路径突破了传统“小样本、重遥操作、强依赖本体数据”的限制,人类数据比机器人数据更易规模化,且对不同形态机器人本体具备较强泛化潜力[15] - 真正稀缺的数据是既足够真实、精细,又能被规模化生产并被模型直接消化的数据[6] 多模态融合与高精度采集的必要性 - 精细操作需要三维视觉、身体姿态及触觉三类信息,触觉提供接触状态、摩擦变化和微滑移信息,是视觉的终点和力控的起点[20] - 公司能在戴手套(包括黑色手套)情况下实现手势识别,这对于融合视觉、触觉和姿态至关重要[21][22] - 手部理解是具身数据里最难的一层(L4-L5级别技术),公司具备全球领先的手部理解能力,能在长序列、强接触条件下将标注能力稳定推到毫米级[19][23] 数据采集的成本与效率 - 传统人工标注成本极高,标注一秒钟三视角视频(30帧)成本约3元,一分钟180元[23] - 公司自研的数据标注引擎成本是传统人工的“几百分之一”,但精度更高,实现了“低成本+高质量”的双飞轮[23] - 数据采集流程为流式过程,在真实产线或场景中佩戴穿戴套件操作,数据引擎实时捕捉并对齐多模态信号,随后离线工具链自动进行毫米级标注[25] 对仿真数据与真实数据的看法 - 仿真数据在预训练、策略搜索上有价值,但进入真实世界的复杂接触时,sim-to-real gap(仿真到现实差距)依然显著[24] - 英伟达推动sim-to-real的本质是让仿真更接近真实,仍需大量真实数据持续对齐和校准,而非用仿真替代真实[24] - 真正有价值的真机数据需同时满足五个条件:真实、精准、高自由度、低成本、可训练,仿真数据在“真实”这一关就难以通过[24] 商业模式与发展规划 - 商业模式是to B,路径清晰:第一步服务高校和顶级实验室;第二步切入机器人本体和模型厂商;第三步触达最终场景方[32] - 标准产品包括售卖穿戴硬件和成品数据集,对于只想提升模型训练效果的客户,可直接购买数据集并获得技术支持[32] - 公司计划在今年陆续开源1000至10000小时的高精度数据集,以推动行业共建地基[26] 行业竞争格局与公司独特性 - 与UMI(通用操作接口)路线的区别在于目标函数不同:UMI优先解决低门槛、可迁移;星忆优先解决在高自由度前提下,把决定精细操作上限的信号采全、采准、采成可训练资产[30] - 公司认为二指夹爪是工业化遗留产物,AGI要求泛化能力,因此选择做“高自由度基础上的高精度”[30] - 公司的独特性在于聚焦最难规模化、非标准化的高精度高质量动作数据,并将其数字化、标准化[33] 对数据规模与行业发展的判断 - 公司判断高质量具身数据的最终需求规模会落在一亿小时量级,但必须是最高质量的数据,用以形成“具身基因”[36] - 具身智能落地时间表判断为:3年进工厂(特定场景单一任务),5年进家庭(需要泛化能力)[38] - 目前行业整体仍处于POC(概念验证)阶段,纯端到端方案的准确率通常只有70%–80%[38] - 下一阶段行业竞争的关键在于谁能率先建立起高标准数据资产的规模化生产能力及持续学习的系统[39]