本能智能
搜索文档
机器人整机是“有限游戏”?对话星海图创始人:具身智能商业化的三个阶段,终点是卖Token
AI前线· 2026-06-18 15:03
公司技术路线与产品发布 - 公司提出具身智能正经历“本能智能—作业智能—进化智能”三重跃迁,未来AI将围绕应用场景与任务去定义和设计机器人身体[2] - 公司发布新一代VLA基础模型G0.5并宣布开源,同时公布世界模型Fast-WAM与全身控制基础模型[2] - 公司自研双足人形机器人Kengo(行客)现场首秀,身高1.4米,以高性能运动小脑与具身大脑为核心,能完成高难度全身动作及贴近真实场景的双臂作业[2] - 公司从整机做起,开辟轮式双臂品类,自研动力模组,目前80%的动力单元是自研或与产业链共研的[4] - 公司决定在2025年春节前后启动双足人形项目[4] 数据战略与规划 - 公司联合北京亦庄共建数据公司“亦数智能”,启动“100万小时超高质量真实数据计划”,规划今年完成百万小时、未来三年迈向千万小时[4] - 公司是行业内最早押注真实数据的公司,2025年8月开源的数据集GOD是全球第一个开放场景具身操作数据集,下载量接近60万次[4] - 公司CEO高继扬认为,在百万小时到千万小时之间的数据量训练出来的具身基础模型会带来突破性改变[4] - 数据采集成本方面,human centric data实践成本为50-100元人民币一小时,robot centric data(遥操作数据)成本约250元一小时,市面上价格在300-350元,综合成本约100-150元一小时,100万小时数据对应1-2亿元成本[13] - 公司预训练阶段全部使用真实数据,数据成本与算力成本实践比例至少为1:10[12] - 公司通过亦数智能平台,采用外包采集和众包采集相结合的模式进行数据规模化采集,当前已有数百人携带设备进行生产伴随式采集[14] - 公司判断未来具身智能数据99%将是private data(私有数据),数据差异将传导至模型能力、应用效果及商业价值的差异[16][17] 模型发展与融合 - 公司认为VLA(视觉语言动作模型)与世界模型(WIM)是同源共生,未来会走向融合,底层均是将多模态数据Token化并通过Transformer处理[21] - 数据采集旨在铺满四个维度:动作、操作对象、场景和本体,通过不同采集方式(如UMI数据、Ego数据)来高效覆盖这些维度[22] - 作业智能当前以模仿学习为主线,本能智能则以强化学习为主线,两者未来会融合[18] - 公司战略是“整机+智能”,最终目标是释放生产力,研发投入上智能投入远超整机,约差一个数量级[20] 商业模式与商业化路径 - 公司商业模式将分三个阶段演进:第一阶段整机销售,第二阶段方案订阅,第三阶段Token销售,当前处于整机销售阶段[7] - 不同商业模式阶段增长率不同:整机销售年化自然增长30%-100%,方案订阅是每年3倍到10倍增长,Token销售是10倍到100倍增长[7] - 公司认为真正的星辰大海是面向生产力的场景方案订阅市场,该市场规模是当前科教研开发者市场和展演娱乐市场的几万倍,并可能重写GDP结构[26][31] - 公司商业化遵循“从开发者到生产力”的规律,当前明确有价值的是开发者市场和展演展示市场,在其他生产力场景过早部署是过度商业化[33] - 公司预计未来两年左右,双足及轮式双臂等产品的成本将稳定在1万美金左右[28] - 发达国家劳动力成本约4-5万美金一年,若产品硬件成本1万美金且一年回本,则有3-4万美金空间留给智能部分,商业潜力取决于大脑(智能)能力[29] 行业竞争与市场展望 - 公司CEO判断,依托数据供应链与整机供应链的叠加优势,未来两到三年,中国的具身基础模型能力有望整体超过美国[5] - 公司认为具身智能是未来中心性产业,所有行业都可与其产生上下游关系,其真正潜力是改写GDP结构,而不仅限于表演或制造业的某个环节[31] - 公司产品将无处不在,落地过程循序渐进:从厘米级精度(上料、搬运、分拣等)到毫米级精度(装配、插拔、检测等),未来将扩展至农业、建筑业等行业[30] - 本能智能模型的发展将分阶段进行:从强化学习(跳舞、跑跳)到全身遥操作,再与作业智能融合,最终进入非结构化场景执行重作业任务[32] - 公司对行业泡沫持务实态度,认为赢家可在泡沫膨胀和破灭阶段获益,公司通过“务实创新”的价值观,聚焦智能主线投入资源[35][36] - 公司支出策略遵循AI Scaling Law,节奏可能是1、5、20、100的指数级放大,与传统风险投资的线性支出模型不同[39] 生态建设与投资 - 公司打出生态牌,数据生态由亦数智能承载,并联合凯辉基金发布创业孵化项目“星途计划”,未来3-5年计划投资30-50家具身智能早期创业团队[7]