核心观点 - 星海图专注于开发具身智能大模型G0,强调泛化能力而非展示性小模型[4][8][28] - 公司通过真实场景数据采集和开源500小时数据集推动行业标准化[11][13][49] - VLA(视觉-语言-动作)范式是当前工业化路径,同时探索世界模型等前沿技术[60][69] 技术研发 - G0模型采用三阶段VLA训练框架,在平均指标上超越竞品PI 0约20%[25] - 模型需解决操作对象差异(如纹理、软硬度)、场景多样性(如不同门店布局)、任务动作复杂性(如薄纸抓取)三大泛化性难点[30][31][32] - 基于Transformer架构,结合模型结构、算法、数据三要素实现能力跃升[36][37][38] 数据战略 - 过去十个月重点投入数据工程,包括真机遥操作采集、清洗标注等非标准化流程[11][45][48] - 定义五类真实场景(家庭、酒店、工厂、超市、餐厅)采集数据,强调"真实性"和"多样性"[49][50] - 开源500小时数据集旨在建立行业基准,缩短开发者从购机到部署的链条[13][52][57] 商业化路径 - 采用快慢双系统技术路线,分离"慢思考"与"快执行"以平衡实时响应与模型参数量[64][65][66] - 优先发展VLA而非触觉传感器,因相机产业链更成熟标准化[62][63] - 已完成近15亿元人民币A轮系列融资,2025年WRC展示铺床Demo凸显技术差异化[15][24] 行业影响 - 具身智能处于"非共识阶段",大语言模型的Scaling Law尚未在机器人领域验证[10][35] - 产学协同加速技术突破,产业规模提升可解决学术研究数据量级不足的痛点[81][82] - 开源数据集策略受学术经历启发,此前ADE20K数据集长期影响计算机视觉领域[76][79][80]
专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量
36氪·2025-08-13 21:35