Workflow
星忆HBR Engine数据引擎
icon
搜索文档
对标英伟达EgoScale数据路径,清华系孵化星忆科技拿到首轮融资|早起看早期
36氪· 2026-03-30 08:21
行业趋势与范式转移 - 具身智能数据层的全球竞争焦点已从单纯追求数据规模,转向谁能将Human-centric/Ego-centric数据转化为高自由度、高精度、低成本、可训练的数据资产 [4][36] - 行业正经历明确的数据范式迁移,全球头部玩家几乎同时将目光转向以人类第一视角、真实物理交互和多模态感知为核心的Ego-centric数据采集路线 [4][36] - 驱动这一转变的核心原因是,机器人学习的最终目标是在真实物理世界完成正确动作,而第三人称视频、仿真数据和纯遥操数据分别存在缺少接触细节、难以覆盖物理长尾、昂贵且稀缺的局限性 [4][37] 主要市场参与者与动态 - NVIDIA Research在2026年发布EgoScale数据与训练框架,使用20,854小时带标注的第一人称人类视频,验证了数据规模与验证损失间接近对数线性的缩放规律 [3][36] - 公司1X通过Sunday项目采集百万小时级家庭场景视频,光轮智能采用混合路线宣称累计交付突破100万小时数据,估值飙向十亿美金 [3][36] - 创业公司星忆科技完成千万级首轮融资,由水木创投领投,泉士资本、钥卓资本等跟投,枫承资本担任融资顾问 [5][38] 公司星忆科技概况 - 公司定位为具身智能的物理数据基础设施,旨在通过自研高精度穿戴设备与数据引擎,将人类生产力经验转化为机器人可学习的数字养料 [8][40] - 公司孵化自清华大学计算机系,创始人宋知珩曾任智元机器人全尺寸双足人形整机产品负责人及数采与遥操体系负责人,也是镁伽机器人前20号员工,有五次0到1新产品开发及过亿营收经验 [5][38] - 团队技术班底来自清华、北航等高校及埃夫特、海康威视等产业专家,在顶级会议期刊发表论文70余篇,承担多项国家级科研项目 [6][39] 公司核心技术路径与差异化 - 对标英伟达EgoScale,但采取差异化路线:不做二指夹爪式UMI,追求高自由度基础上的高精度;不只采集视觉,而是融合视觉、触觉与姿态;不只提供工具,而是打通从采集到训练的完整闭环 [6][39] - 公司认为真正有价值的真机数据需同时满足五个条件:真实、精准、高自由度、低成本、可训练,当前优势集中在精度与自由度 [6][39] - 与EgoScale的区别在于融合了更多模态(如触觉),并具备更高的场景兼容性,可实现“EgoScale in the wild”,能在真实生产场景中无约束采集 [11][45] 技术细节与能力 - 公司核心技术能力包括多模态采集、细粒度手部理解和高精度标注,手部理解被视为L4-L5级别技术,人体姿态为L2级别 [12][14][47] - 精细操作需要三维视觉、身体姿态及触觉信息,触觉提供接触状态、摩擦变化和微滑移信息,是视觉终点和力控起点 [15][48] - 公司能实现戴手套(包括黑色手套)情况下的高精度手势识别,解决了多模态融合中穿戴状态下稳定完成手部理解的关键难题 [16][49] - 数据引擎标注能力在长序列、强接触条件下可稳定达到毫米级精度,且比人类专家标注具备更强一致性,成本仅为传统人工标注的几百分之一 [17][50] 数据采集策略与成本 - 公司不依赖仿真数据,认为仿真在真实世界复杂接触任务中存在显著sim-to-real gap,仿真数据无法满足“真实”这一核心条件 [18][51] - 数据采集采用流式过程,采集员在真实产线佩戴穿戴套件操作,数据引擎实时捕捉并毫秒级对齐多模态信息,再通过离线工具链自动进行毫米级标注,形成高质量训练数据 [19][52] - 公司通过内嵌的“质量审计引擎”自动保证数据质量,并计划在今年陆续开源1000至10000小时的高精度数据集以推动行业共建 [20][53] 市场定位与商业模式 - 公司提出两个“金字塔”模型:能力金字塔中,决定系统上限的是作业智能层;数据金字塔中,越往上(如第一人称人类数据、真机遥操数据)数据量越小但价值密度越高,行业缺乏的是能进入复杂接触的高质量真实数据 [21][23][54][56] - 与UMI等路线的本质区别在于目标函数不同:UMI优先解决低门槛、可迁移,而公司优先解决在高自由度前提下,将决定精细操作上限的信号采全、采准、采成可训练资产 [24][57] - 商业模式清晰为To B,分三步走:服务高校/实验室、切入机器人本体与模型厂商、触达最终场景方,形成从数采工具到在线引擎再到场景落地的完整商业闭环,售卖穿戴硬件和数据集两类标准产品 [26][59] 行业竞争格局与展望 - 公司认为具身智能的核心竞争是将真实世界经验转化为机器人能力的系统效率竞争,其团队竞争力在于打通了学术、工程和产业间最难衔接的链路 [31][65] - 下一阶段行业拉开差距的关键在于谁能率先建立高标准数据资产的规模化生产能力,并形成从真实世界持续学习、回流、长出能力的系统 [32][65] - 公司预测具身智能落地时间表为“3年进工厂,5年进家庭”,工厂指特定场景单一任务正确率达99%以上,家庭需模型具备泛化能力,目前行业整体处于POC阶段,纯端到端方案准确率约70%–80% [30][64] - 关于数据规模,公司认为最终需求将落在一亿小时最高质量数据的量级,这些数据将形成“具身基因” [28][62] - 公司认为机器人行业需要国家队与产业生态抱团打造,而非单打独斗或简单站队 [29][63]
对标英伟达EgoScale数据路径,清华系孵化星忆科技拿到首轮融资|早起看早期
36氪· 2026-03-30 08:09
文章核心观点 - 具身智能行业正经历一场数据范式迁移,从追求大规模、第三人称数据转向追求高价值、高精度的Human-centric/Ego-centric(人类中心/第一人称视角)数据[5][6] - 高质量、可训练的真实物理交互数据是当前具身智能发展的核心瓶颈与关键基础设施,其价值在于将人类经验高效转化为机器人可学习的“数字养料”[6][11][13] - 星忆科技作为一家初创公司,通过自研多模态穿戴设备与数据引擎,专注于采集高精度、高自由度的Ego-centric数据,旨在成为具身智能的“物理数据基础设施”[6][8][11] 行业趋势与数据范式迁移 - 行业关注点从“谁采得更多”转向“谁能把Human-centric/Ego-centric数据真正做成高自由度、高精度、低成本、可训练的资产”[5] - 全球头部玩家将目光转向Human-centric data,其中Ego-centric(第一人称视角、真实物理交互和多模态感知)数据正迅速成为关键[5] - 英伟达在2026年发布EgoScale框架,使用20,854小时带动作标注的第一人称人类视频,验证了数据规模与验证损失间接近对数线性的scaling law[4] - 其他玩家如1X通过Sunday项目采集百万小时级家庭场景视频,光轮智能采用混合路线累计交付突破100万小时数据,估值飙向十亿美金[4] 星忆科技公司定位与融资情况 - 公司定位为“具身智能的物理数据基础设施”,核心是让机器人具备在真实复杂世界中完成精细操作的能力[11][12] - 公司近期完成千万级首轮融资,由清华系水木创投领投,泉士资本、神州通誉系钥卓资本等跟投[6] - 公司孵化自清华大学计算机系,创始人宋知珩曾任智元机器人全尺寸双足人形整机产品负责人,并负责相关数采与遥操体系建设[6] 技术路径与核心优势 - 技术路径对标英伟达EgoScale,但差异化在于:追求高自由度基础上的高精度;融合视觉、触觉与姿态多模态信号;打通从采集到训练的完整闭环[8] - 核心优势集中在精度与自由度两端,并致力于实现低成本与可训练性以实现规模化[8] - 团队技术班底来自清华、北航等高校及产业界,在相关领域发表顶级论文70余篇,承担多项国家级科研项目[7] 对Ego-centric数据价值的阐述 - EgoScale走红的核心在于验证了通过超大规模人类第一视角数据,实现人类行为到机器人操作能力高效迁移的路径[14] - 该路径突破了传统“小样本、重遥操作、强依赖本体数据”的限制,人类数据比机器人数据更易规模化,且对不同形态机器人本体具备较强泛化潜力[15] - 真正稀缺的数据是既足够真实、精细,又能被规模化生产并被模型直接消化的数据[6] 多模态融合与高精度采集的必要性 - 精细操作需要三维视觉、身体姿态及触觉三类信息,触觉提供接触状态、摩擦变化和微滑移信息,是视觉的终点和力控的起点[20] - 公司能在戴手套(包括黑色手套)情况下实现手势识别,这对于融合视觉、触觉和姿态至关重要[21][22] - 手部理解是具身数据里最难的一层(L4-L5级别技术),公司具备全球领先的手部理解能力,能在长序列、强接触条件下将标注能力稳定推到毫米级[19][23] 数据采集的成本与效率 - 传统人工标注成本极高,标注一秒钟三视角视频(30帧)成本约3元,一分钟180元[23] - 公司自研的数据标注引擎成本是传统人工的“几百分之一”,但精度更高,实现了“低成本+高质量”的双飞轮[23] - 数据采集流程为流式过程,在真实产线或场景中佩戴穿戴套件操作,数据引擎实时捕捉并对齐多模态信号,随后离线工具链自动进行毫米级标注[25] 对仿真数据与真实数据的看法 - 仿真数据在预训练、策略搜索上有价值,但进入真实世界的复杂接触时,sim-to-real gap(仿真到现实差距)依然显著[24] - 英伟达推动sim-to-real的本质是让仿真更接近真实,仍需大量真实数据持续对齐和校准,而非用仿真替代真实[24] - 真正有价值的真机数据需同时满足五个条件:真实、精准、高自由度、低成本、可训练,仿真数据在“真实”这一关就难以通过[24] 商业模式与发展规划 - 商业模式是to B,路径清晰:第一步服务高校和顶级实验室;第二步切入机器人本体和模型厂商;第三步触达最终场景方[32] - 标准产品包括售卖穿戴硬件和成品数据集,对于只想提升模型训练效果的客户,可直接购买数据集并获得技术支持[32] - 公司计划在今年陆续开源1000至10000小时的高精度数据集,以推动行业共建地基[26] 行业竞争格局与公司独特性 - 与UMI(通用操作接口)路线的区别在于目标函数不同:UMI优先解决低门槛、可迁移;星忆优先解决在高自由度前提下,把决定精细操作上限的信号采全、采准、采成可训练资产[30] - 公司认为二指夹爪是工业化遗留产物,AGI要求泛化能力,因此选择做“高自由度基础上的高精度”[30] - 公司的独特性在于聚焦最难规模化、非标准化的高精度高质量动作数据,并将其数字化、标准化[33] 对数据规模与行业发展的判断 - 公司判断高质量具身数据的最终需求规模会落在一亿小时量级,但必须是最高质量的数据,用以形成“具身基因”[36] - 具身智能落地时间表判断为:3年进工厂(特定场景单一任务),5年进家庭(需要泛化能力)[38] - 目前行业整体仍处于POC(概念验证)阶段,纯端到端方案的准确率通常只有70%–80%[38] - 下一阶段行业竞争的关键在于谁能率先建立起高标准数据资产的规模化生产能力及持续学习的系统[39]
对标英伟达EgoScale数据路径,清华系孵化星忆科技拿到首轮融资
36氪· 2026-03-27 16:04
行业趋势与数据范式迁移 - 具身智能领域的数据竞赛焦点正从“谁采得更多”转向“谁能把Human-centric/Ego-centric数据做成高自由度、高精度、低成本、可训练的资产” 这标志着一场明确的数据范式迁移 [2] - Ego-centric(人类第一视角)数据因其包含真实物理交互和多模态感知细节 正迅速成为最关键的数据采集路线 其价值在于弥补第三人称视频缺少接触细节、仿真数据难以覆盖真实物理长尾、以及纯遥操数据昂贵稀缺的不足 [2] - 行业头部玩家如NVIDIA已发布EgoScale数据与训练框架 该框架使用20,854小时带动作标注的第一人称人类视频进行训练 并观察到数据规模与验证损失之间接近对数线性的scaling law [1] - 其他市场参与者也在积极布局 例如1X通过Sunday项目采集百万小时级家庭场景视频 光轮智能采用混合路线宣称累计交付突破100万小时数据 估值飙向十亿美金 [1] 公司概况与融资情况 - 星忆科技是一家聚焦Ego-centric数据采集的创业公司 已完成千万级首轮融资 由清华系水木创投领投 泉士资本、神州通誉系钥卓资本等跟投 [3] - 公司孵化自清华大学计算机系 创始人宋知珩曾任智元机器人全尺寸双足人形整机产品负责人 并负责相关数采与遥操体系建设 此前是镁伽机器人前20号员工 有从0到1的产品开发与量产经验 [3] - 公司核心团队技术班底来自清华、北航等高校 并吸纳了埃夫特、海康威视等产业专家 在相关领域累计发表顶级会议和期刊论文70余篇 [4] - 公司定位为“具身智能的物理数据基础设施” 旨在通过自研的高精度穿戴设备与数据引擎 将人类操作经验转化为机器人可学习的数字养料 [5] 技术路径与核心优势 - 公司对标英伟达EgoScale技术路径 但构建了差异化的数据采集软硬件体系 其路线不做二指夹爪式UMI 而是追求高自由度基础上的高精度 并融合视觉、触觉与姿态多模态数据 试图打通从采集到训练的完整闭环 [5] - 公司认为真正有价值的真机数据需同时满足五个条件:真实、精准、高自由度、低成本、可训练 公司当前最突出的优势集中在精度与自由度两端 [5] - 公司的技术核心在于高质量的多模态信号采集与高精度标注 特别是在手部理解这一高难度领域 公司声称具备全球领先的能力 能将数据引擎的标注能力稳定推到毫米级 [12] - 在多模态融合方面 公司强调触觉信息对于精细操作不可或缺 它提供了接触状态、摩擦变化和微滑移信息 是视觉的终点也是力控的起点 [13] - 公司攻克了在佩戴手套(包括黑色手套)情况下进行高精度手势识别的技术难题 这为在真实生产场景中融合视觉、触觉和姿态数据奠定了基础 [14] 数据采集与处理能力 - 公司的数据采集流程是一个流式过程:采集员在真实产线佩戴穿戴套件操作 数据引擎实时捕捉多模态信息并进行毫秒级对齐 形成可张量化的训练数据 [17] - 公司通过自研的数据引擎实现了低成本、高质量的标注 传统人工标注一秒钟三视角视频(30帧)成本约3元人民币 而公司的标注引擎成本是传统人工的“几百分之之一” 且精度更高 [15] - 公司通过内嵌的“质量审计引擎”自动剔除抖动、丢帧等不合理动作以保证数据质量 [18] - 公司计划在今年陆续开源1000至10000小时的高精度数据集 以推动行业共建 [18] 市场竞争与商业模式 - 公司将其与UMI(通用操作接口)路线的本质区别定义为目标函数不同:UMI优先解决低门槛、可迁移、可扩展 而公司优先解决在高自由度前提下 将决定精细操作上限的信号采全、采准、采成可训练资产 [21] - 公司认为二指夹爪是工业化遗留产物 而AGI要求泛化能力 因此公司致力于服务高自由度的灵巧手(如人手有21个自由度) [21] - 公司的商业模式路径清晰:第一步服务高校和顶级实验室(科研需求) 第二步切入机器人本体和模型厂商(训练需求) 第三步触达最终场景方(落地需求) [23] - 公司提供两类标准产品:售卖穿戴硬件和数据集 对于只想快速提升模型效果的客户 可直接购买成品数据集并获得技术支持 [23] 行业认知与发展展望 - 公司用“数据金字塔”模型理解行业:底层是规模最大的互联网数据 往上依次是仿真/合成数据、第一人称人类多模态真实数据、以及顶层的真机遥操数据 越往上数据量越小但价值密度越高 行业当前最缺的是能进入复杂接触又能被模型有效消化的高质量真实数据 [19][21] - 公司判断具身智能落地时间表为“3年进工厂 5年进家庭” 工厂指特定场景单一任务 家庭则需要模型具备泛化能力 目前行业整体仍处于POC阶段 纯端到端方案准确率通常只有70%–80% [27] - 公司认为下一阶段竞争的关键在于系统效率 即谁能率先建立高标准数据资产的规模化生产能力 并构建一套从真实世界持续学习、持续回流的系统 [28] - 关于数据规模天花板 公司认为最终会落在一亿小时这个量级 但这必须是最高质量的数据 用以形成“具身基因” [25]
对标英伟达EgoScale数据路径,清华系孵化星忆科技拿到首轮融资
暗涌Waves· 2026-03-27 08:48
行业核心趋势与范式迁移 - 具身智能行业的关注点正从单纯追求数据规模,转向谁能将Human-centric/Ego-centric数据转化为高自由度、高精度、低成本、可训练的数据资产,这是一场明确的数据范式迁移 [3] - 其中,以人类第一视角、真实物理交互和多模态感知为核心的Ego-centric数据,正迅速成为最关键的数据采集路线,因其能提供机器人学习真实世界精细操作所需的接触与控制细节 [3] - 行业头部玩家已同时将目光转向Human-centric data,其稀缺性在于需要同时满足真实、精细、可规模化生产并被模型直接消化 [3] - NVIDIA Research在2026年发布的EgoScale框架,使用20,854小时带动作标注的第一人称人类视频进行训练,验证了数据规模与验证损失间接近对数线性的scaling law,推动了该路线的热度 [2][10] 星忆科技公司概况与定位 - 公司是一家聚焦Ego-centric数据采集的创业公司,近期完成千万级首轮融资,由水木创投领投,神州数码旗下钥卓资本等跟投 [4] - 公司定位为“具身智能的物理数据基础设施”,核心是通过自研高精度穿戴设备与数据引擎,将人类生产力经验转化为机器人可学习的数字养料 [8] - 公司孵化自清华大学计算机系,创始人及团队技术班底来自清华、北航等高校,并拥有智元机器人、镁伽机器人等产业经验,团队累计在CVPR等顶级会议发表论文70余篇 [4][5] - 公司核心能力在于将“数据—模型—产品—商业化”的关键链路整合在同一个组织内,形成了从采集到训练的完整闭环能力 [4] 技术路径与核心优势 - 技术路径对标英伟达EgoScale,但差异在于:不只采集视觉,而是融合视觉、触觉与姿态;不做二指夹爪式UMI路线,而是追求高自由度基础上的高精度;并试图打通从采集到训练的完整闭环 [6][12] - 公司认为真正有价值的真机数据需同时满足五个条件:真实、精准、高自由度、低成本、可训练,当前优势集中在精度与自由度两端 [6] - 在多模态融合上,公司强调触觉对于精细操作不可或缺,它提供接触状态、摩擦变化等信息,是视觉的终点和力控的起点 [14] - 公司在手部理解等关键技术上具备优势,能在长序列、强接触条件下实现毫米级标注,其数据引擎的标注成本仅为传统人工方式的几百分之一,同时精度更高 [13][18] - 公司自研的EgoKit多模态数采套件能在真实生产场景中佩戴采集,支持戴手套情况下的高精度手势识别,这对多模态系统的精度、时延和成本提出了综合挑战 [12][15][17] 市场策略与发展规划 - 公司的商业化路径清晰:第一步服务高校和顶级实验室;第二步切入机器人本体和模型厂商;第三步触达最终场景方,旨在建立从数采工具到在线引擎再到场景落地的完整商业闭环 [30] - 产品和服务包括售卖穿戴硬件和成品数据集,对于只想提升模型训练效果的客户,可直接购买数据集并获得技术支持 [30] - 公司计划在今年陆续开源1000至10000小时的高精度数据集,以推动行业共建地基 [21] - 公司判断具身智能落地节奏为“3年进工厂,5年进家庭”,目前行业整体仍处于POC阶段,端到端方案准确率通常在70%–80% [34] 行业竞争与公司视角 - 公司区别于UMI等路线的核心在于目标函数不同:UMI优先解决低门槛、可迁移;而星忆优先解决在高自由度前提下,将决定精细操作上限的多模态信号采全、采准、采成可训练资产 [28] - 公司认为行业竞争底层是“把真实世界经验转化为机器人能力的系统效率竞争”,其团队竞争力在于打通了学术、工程和产业间最难衔接的链路,形成了闭环能力 [35] - 公司认为行业最终需要生态共建,难以单打独斗,需要国家队、产业生态一起打造 [33] - 在数据规模上,公司认为最终需要约一亿小时最高质量的数据来形成“具身基因”,而非简单的数据堆砌 [32]