核心观点 - 星海图在2025WRC展示具身智能机器人铺床Demo 突出VLA端到端基础模型G0的技术能力 该任务集柔性物体操作、全身控制和场景泛化性于一体[1][2][7] - 公司发布基于500小时真实场景数据集训练的G0模型 在平均指标上超越竞品PI 0约20% 并计划开源数据集推动行业标准化[9][10][28] - 具身智能行业当前处于非共识阶段 公司采取"快慢双系统"技术路线 同时探索世界模型等前沿方向但暂未工业化[34][35][39] - 公司已完成近15亿元人民币A轮系列融资 数据工程成为研发重点 首席科学家亲自参与采集流程标准化[5][19][26] 技术突破 - G0模型采用三阶段VLA训练框架(跨本体预训练/单本体预训练/后训练) 解决复杂全身移动控制任务表现不佳的行业痛点[9][10] - 机器人铺床需协调23个自由度 分三步完成底盘移动、躯干调节和机械臂操作 各步骤存在动态耦合关系[2][7][8] - 模型泛化性面临三大挑战:操作对象差异(纹理/软硬/尺寸)、场景环境多样性、任务动作的非语言可定义性[12][13] - 采用Transformer架构 短期内聚焦视觉-语言-动作模态 暂未引入触觉因传感器标准化程度不足[16][33] 数据战略 - 投入十个月构建五类场景(家庭/酒店/工厂/超市/餐厅)数据集 强调真实性和多样性 拒绝"数据采集厂"式理想环境[27][28] - 开源500小时真机数据集目的:建立行业基准测试标准 缩短用户从购机到部署的开发链条[29][30] - 数据工程包含采集员培训、真机遥操作、清洗标注全流程 目前尚未形成标准化SOP[22][23][26] - 数据质量被视为比模型结构更关键的因素 参考Sora案例证明数据规模的决定性作用[18] 商业模式 - 采用"整机+智能"双轮驱动 通过开源数据降低行业准入门槛 培育开发者生态[30] - 已完成A4、A5轮战略融资 A轮系列累计融资达15亿元人民币[5] - 技术路线选择兼顾学术前沿与工业化可行性 优先推进已成熟的VLA范式[32][34] - 产学协同效应显著 高校研究成果转化与产业数据规模形成良性循环[45][46]
专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量
36氪·2025-08-13 11:37