Workflow
全域全身VLA(视觉 - 语言 - 行动)模型
icon
搜索文档
郭彦东“详解”具身智能:将AGI的能力真正赋予物理世界的机器人
经济观察报· 2025-05-15 21:57
核心观点 - 智平方创始人郭彦东预测通用机器人的"iPhone时刻"将在5至7年后到来,并设定了2033年百万台产能目标 [1][3] - 公司坚持"软硬一体垂直整合"战略,以自研Alpha Brain为核心驱动AGI终端,从高端工业场景切入商业化 [2][3][6] - 通用智能机器人发展面临三大挑战:技术通用性与鲁棒性、成本与价值平衡、应用场景深度挖掘与标准化 [7][8] 技术战略 - 自研GOVLA大模型是全球首款全域全身VLA模型,具备全局环境理解与全身协同控制能力 [13][14] - 技术架构100%全栈自研,结合空间交互基础模型与双系统协同(System1快速响应、System2复杂推理) [14][17] - 采用"搜索引擎级"多源数据训练(互联网公开数据+仿真数据+真实交互数据),注重训练效率与端侧部署优化 [18][22] 商业化路径 - 首选汽车制造、半导体、生物科技等高端工业场景,因痛点清晰、付费能力强且能验证技术可靠性 [25][26] - 2024年已实现数千万元回款,案例包括晶能微电子晶圆搬运、华熙生物无菌生产等工业场景 [27][29] - 计划2024Q3进入机场服务场景,Q4落地示范小区,构建"技术-场景-数据"闭环 [28] 产能与供应链 - 目标2028年实现万台级应用,2033年达百万台规模,覆盖工业/物流/家庭服务多元场景 [34] - 自建产线控制质量与成本,转化新能源汽车供应链体系,逐步提升核心部件自研比例 [34][35] - 采用"南北协同"人才策略:北京AI算法研发+深圳硬件产业化,强调核心技术自主可控 [36][37] 行业洞察 - 中国具身智能产业优势:完善供应链、丰富应用场景、活跃产业生态,硬件迭代速度全球领先 [36][37] - 成本下降关键:借鉴新能源车供应链,预计5-7年内机器人硬件成本降至经济型汽车价位 [32][35] - "iPhone时刻"前提:技术通用性突破、硬件成本大幅下降、"杀手级应用"出现 [31][32]