地瓜精酿馆开张大吉:碰杯VLA观点,互诉机器人信仰|地瓜机器人x锦秋基金
锦秋集·2025-09-29 21:14

活动概述 - 地瓜机器人联合锦秋基金等机构举办了一场以“机器人的新一代故事”为主题的行业交流活动[2] - 活动汇集了来自机器人公司、投资基金、科技大厂及云平台的产品、技术、算法、生态及投资领域的多位负责人[2] - 活动形式为轻松的交流讨论,旨在激发机器人开发者与创业者的灵感[3][16] 关于视觉语言动作模型发展的观点记录 - 行业对VLA的发展存在不同观点,主要分为中立派和乐观派[15] - 当前VLA发展面临数据基础缺失的挑战,与互联网或自动驾驶不同,具身交互数据的平台与规模尚未形成[18] - VLA训练存在物理约束缺位问题,多基于表象数据,缺乏动力学、碰撞、摩擦等硬约束,导致“看起来会、做起来不稳”[18] - 工程实现面临参数地狱,从过去手动调整动力模型参数转变为现在调整奖励参数,工程痛苦并未消失,且训练-验证迭代周期长、开销大[18] - VLA在短期内难以严肃落地,因其“大脑”输出缺乏时间与约束概念,必须由规划或控制层进行清洗与约束[18] - 在封闭、低速、可控场景下,建议采用以规则为基础的安全兜底方案,结合可学习算法进行优化,先实现商用交付,再逐步构建数据闭环与能力堆叠[18] - VLA的推进还需两大要素:底层模型研发人才,以及能够承接模型商业化的主体,需要同时补齐模型研发与商业规模化能力[18] - 发展路径建议两条腿走路:上层大模型负责理解与任务分解,底层强化学习或规划控制负责约束满足与实时稳定,两者协同进化[18] - 可通过自主数据生成与仿真增强来突破,即利用强化学习加物理仿真来制造数据、学习策略,提高泛化能力,类似“孩子学走路”的自我试错过程[18] - 需要端侧与“大脑”能力共同提升,视觉语言模型和VLA的精度上限尚未达到,决策与执行可通过强化学习训练得更鲁棒,再解决仿真到现实的迁移问题[18] - 长期看好学习型控制方法,虽然目前稚嫩,但相比传统“画匠”式控制,其具备“灵魂与泛化”的潜力,有望从“画匠”演进为“画家”[18]