VLA工程师安鹏举:年轻人就要在“机器人第一城”卷一卷

行业宏观趋势与预测 - 埃隆·马斯克预言通用人工智能将于2026年实现,到2040年全球人形机器人数量将突破100亿台 [2] - 2025年具身智能已不再是实验室里的科幻名词 [4] - 截至2024年底,深圳人工智能相关企业已超2200家,形成龙头企业国际争先、高成长性企业国内一流、初创企业竞相发展的“雁阵式”梯队 [4][5] - 深圳被誉为“机器人第一城”,头部人形机器人企业的核心部件国产化率超90%,产业链供应链本地化率最高达60% [5][12] 公司技术与研发 - 众擎机器人是一家全栈自研公司,涵盖本体核心零部件、小脑运控算法以及大脑具身智能 [5] - 公司研发测试场呈现独特的赛博工业美学,工程师正对一台1.4米高的机器人进行测试,使其能完成行走、跳舞、跳跃等动作 [2] - 公司招聘强调寻找“具身智能的探索者”,而非普通程序员 [7] - 公司拥有名为PM01的硬件产品,工程师认为硬件已经准备好,只差杀手级的通用大模型 [11][12] 核心技术:VLA(视觉-语言-动作) - VLA算法工程师负责打通机器人的“眼-脑-手”,将大模型理解的语义翻译成机器人能执行的“肌肉记忆” [10][11] - 技术逻辑分为三部分:Language(语言)用于理解语义;Vision(视觉)用于识别物体的三维坐标;Action(动作)是最难的部分,需精确控制关节动作 [11] - 工程师日常工作在“示教”与“炼丹”之间循环,包括通过VR眼镜或手柄远程控制机器人记录动作数据,以及用数据训练模型进行“模仿学习” [11] - 通过设定“奖励函数”(如成功拿起杯子+100分,掉落-100分)来驱动机器人在千万次尝试中寻找最优解 [11] - 训练过程中出现了有趣的“觉醒时刻”,例如机器人未经教导即在被推搡时退步稳住重心,以及从人类“不完美”的抖动数据中学会了自主纠错能力 [11] 人才与产业生态 - 深圳通过“百万英才汇南粤”等项目吸引高端人才,例如引进拥有顶尖学术背景的VLA算法工程师 [2][7] - 深圳被形容为硬科技创业者的“迪士尼”,因其极高的“科创浓度”和活力 [7][12] - 人才选择投身企业而非继续读博,是因为认为最丰富的数据、最先进的硬件和最真实的落地场景目前都在企业里 [7] - 工程师的驱动力源于希望AI代码能变成物理世界的动能,而不仅限于在服务器中运行 [8] 市场前景与产品展望 - 人形机器人正经历“寒武纪大爆发”阶段 [4][7] - 简单的端茶倒水任务可能在3年内在特定场景实现,但像保姆一样叠衣服、做饭、带孩子等复杂任务可能需要5-10年 [12] - 行业发展被认为“比大家想象的要快,但也比营销号吹的要慢”,目前处于类似“iPhone 1代发布的前夜” [12] - 长远愿景是机器人成为人类可靠且有温度的“副手”,而不仅仅是冷冰冰的替代者 [12]