地瓜精酿馆开张大吉：碰杯VLA观点，互诉机器人信仰｜地瓜机器人x锦秋基金

活动概述 - 地瓜机器人联合锦秋基金等机构举办了一场以“机器人的新一代故事”为主题的行业交流活动[2] - 活动汇集了来自机器人公司、投资基金、科技大厂及云平台的产品、技术、算法、生态及投资领域的多位负责人[2] - 活动形式为轻松的交流讨论，旨在激发机器人开发者与创业者的灵感[3][16] 关于视觉语言动作模型发展的观点记录 - 行业对VLA的发展存在不同观点，主要分为中立派和乐观派[15] - 当前VLA发展面临数据基础缺失的挑战，与互联网或自动驾驶不同，具身交互数据的平台与规模尚未形成[18] - VLA训练存在物理约束缺位问题，多基于表象数据，缺乏动力学、碰撞、摩擦等硬约束，导致“看起来会、做起来不稳”[18] - 工程实现面临参数地狱，从过去手动调整动力模型参数转变为现在调整奖励参数，工程痛苦并未消失，且训练-验证迭代周期长、开销大[18] - VLA在短期内难以严肃落地，因其“大脑”输出缺乏时间与约束概念，必须由规划或控制层进行清洗与约束[18] - 在封闭、低速、可控场景下，建议采用以规则为基础的安全兜底方案，结合可学习算法进行优化，先实现商用交付，再逐步构建数据闭环与能力堆叠[18] - VLA的推进还需两大要素：底层模型研发人才，以及能够承接模型商业化的主体，需要同时补齐模型研发与商业规模化能力[18] - 发展路径建议两条腿走路：上层大模型负责理解与任务分解，底层强化学习或规划控制负责约束满足与实时稳定，两者协同进化[18] - 可通过自主数据生成与仿真增强来突破，即利用强化学习加物理仿真来制造数据、学习策略，提高泛化能力，类似“孩子学走路”的自我试错过程[18] - 需要端侧与“大脑”能力共同提升，视觉语言模型和VLA的精度上限尚未达到，决策与执行可通过强化学习训练得更鲁棒，再解决仿真到现实的迁移问题[18] - 长期看好学习型控制方法，虽然目前稚嫩，但相比传统“画匠”式控制，其具备“灵魂与泛化”的潜力，有望从“画匠”演进为“画家”[18]