Workflow
VLA端到端基础模型G0
icon
搜索文档
专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量
36氪· 2025-08-13 21:35
核心观点 - 星海图专注于开发具身智能大模型G0,强调泛化能力而非展示性小模型[4][8][28] - 公司通过真实场景数据采集和开源500小时数据集推动行业标准化[11][13][49] - VLA(视觉-语言-动作)范式是当前工业化路径,同时探索世界模型等前沿技术[60][69] 技术研发 - G0模型采用三阶段VLA训练框架,在平均指标上超越竞品PI 0约20%[25] - 模型需解决操作对象差异(如纹理、软硬度)、场景多样性(如不同门店布局)、任务动作复杂性(如薄纸抓取)三大泛化性难点[30][31][32] - 基于Transformer架构,结合模型结构、算法、数据三要素实现能力跃升[36][37][38] 数据战略 - 过去十个月重点投入数据工程,包括真机遥操作采集、清洗标注等非标准化流程[11][45][48] - 定义五类真实场景(家庭、酒店、工厂、超市、餐厅)采集数据,强调"真实性"和"多样性"[49][50] - 开源500小时数据集旨在建立行业基准,缩短开发者从购机到部署的链条[13][52][57] 商业化路径 - 采用快慢双系统技术路线,分离"慢思考"与"快执行"以平衡实时响应与模型参数量[64][65][66] - 优先发展VLA而非触觉传感器,因相机产业链更成熟标准化[62][63] - 已完成近15亿元人民币A轮系列融资,2025年WRC展示铺床Demo凸显技术差异化[15][24] 行业影响 - 具身智能处于"非共识阶段",大语言模型的Scaling Law尚未在机器人领域验证[10][35] - 产学协同加速技术突破,产业规模提升可解决学术研究数据量级不足的痛点[81][82] - 开源数据集策略受学术经历启发,此前ADE20K数据集长期影响计算机视觉领域[76][79][80]
专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量
36氪· 2025-08-13 11:37
核心观点 - 星海图在2025WRC展示具身智能机器人铺床Demo 突出VLA端到端基础模型G0的技术能力 该任务集柔性物体操作、全身控制和场景泛化性于一体[1][2][7] - 公司发布基于500小时真实场景数据集训练的G0模型 在平均指标上超越竞品PI 0约20% 并计划开源数据集推动行业标准化[9][10][28] - 具身智能行业当前处于非共识阶段 公司采取"快慢双系统"技术路线 同时探索世界模型等前沿方向但暂未工业化[34][35][39] - 公司已完成近15亿元人民币A轮系列融资 数据工程成为研发重点 首席科学家亲自参与采集流程标准化[5][19][26] 技术突破 - G0模型采用三阶段VLA训练框架(跨本体预训练/单本体预训练/后训练) 解决复杂全身移动控制任务表现不佳的行业痛点[9][10] - 机器人铺床需协调23个自由度 分三步完成底盘移动、躯干调节和机械臂操作 各步骤存在动态耦合关系[2][7][8] - 模型泛化性面临三大挑战:操作对象差异(纹理/软硬/尺寸)、场景环境多样性、任务动作的非语言可定义性[12][13] - 采用Transformer架构 短期内聚焦视觉-语言-动作模态 暂未引入触觉因传感器标准化程度不足[16][33] 数据战略 - 投入十个月构建五类场景(家庭/酒店/工厂/超市/餐厅)数据集 强调真实性和多样性 拒绝"数据采集厂"式理想环境[27][28] - 开源500小时真机数据集目的:建立行业基准测试标准 缩短用户从购机到部署的开发链条[29][30] - 数据工程包含采集员培训、真机遥操作、清洗标注全流程 目前尚未形成标准化SOP[22][23][26] - 数据质量被视为比模型结构更关键的因素 参考Sora案例证明数据规模的决定性作用[18] 商业模式 - 采用"整机+智能"双轮驱动 通过开源数据降低行业准入门槛 培育开发者生态[30] - 已完成A4、A5轮战略融资 A轮系列累计融资达15亿元人民币[5] - 技术路线选择兼顾学术前沿与工业化可行性 优先推进已成熟的VLA范式[32][34] - 产学协同效应显著 高校研究成果转化与产业数据规模形成良性循环[45][46]