机器人数据闭环深度：机器人VLA核心算法专家

纪要涉及的行业和公司 - 行业：机器人行业 - 公司：巨轮智能、Cosmo Films、特斯拉、理想汽车、Google、英伟达、小鹏汽车 [2][3][23][26][27][29] 纪要提到的核心观点和论据 1. VLA 算法发展与应用 - 发展起源：VLA 算法发展源于大语言模型与多模态融合，通过 Transformer 结构实现输入输出，广泛用于巨轮智能领域 [2] - 面临问题及解决途径：大语言模型在物理智能体领域对几何信息描述弱，可绕过语言模型用已训练 LM 部分，或通过大量视频学习提升空间信息理解能力 [1][2][3][5] - 构建方式：构建 VLA 不一定依赖大语言模型，特定任务可用强化学习，可将语言接口独立作为与人类交互接口 [4] 2. 视频训练与仿真训练 - 视频训练：大量视频训练是提升 VLA 对空间信息理解能力的重要途径，但存在 2D 视频还原 3D 空间信息的映射问题和数据筛选清洗工程量大的问题 [1][5][6] - 仿真训练：仿真分传统仿真和基于生成式模型的仿真，后者潜力大但处于起步阶段且算力要求高 [7] 3. 开源 VLA 框架技术路线：开源 VLA 框架有纯 Transformer 和快慢系统两种技术路线，前者算力要求高，后者存在信息传递瓶颈，未来可能收敛到单个 Transformer 结构 [1][8] 4. 机器人发展现状与瓶颈 - 硬件与算法关系：当前机器人方向存在硬件领先于算法的问题，VLA 缺乏方法性和泛化性 [1][10] - 算法瓶颈表现：最大瓶颈是缺乏强大仿真模型和 3D 空间理解能力，依赖世界模型 [1][11] - 世界模型问题：解决世界模型主要矛盾是数据量问题，需从 next token prediction 迁移到 next frame prediction 并进行复杂数据筛选清洗 [1][13] 5. 模型结构与适配 - 主流结构：主流结构如 AIT 夹 Transformer 较好用且有扩展潜力，不排除新模型或架构出现 [14] - 大脑算法与本体结构关联：大脑算法与本体结构设计强关联，可通过双系统方式设计适配不同本体结构，降低一体化大模型训练成本 [2][15] 6. 硬件发展需求：硬件层面主要问题有关节电机、触觉传感器和一体化灵巧手，触觉传感器发展重要 [16] 7. VRA 任务能力 - 长程任务能力：当前 VRA 只能完成短程任务，完成长程任务如制作咖啡需具备长程任务能力，面临 context 长度不够问题，可通过人工设计数据或 ARM 等方式解决 [18][19] - 复杂任务处理：当前参数量架构在数据量不足时无法有效处理复杂任务，世界模型理解能力随算力发展有提升空间，但参数量增加不一定能解决复杂任务问题 [21] 8. 泛化能力与产业发展 - 复杂任务泛化：复杂任务泛化能力处于探索阶段，现有深度学习方法可能存在瓶颈，无法找到全局最优参数 [22] - 产业发展途径：提升算力和数据量可推动产业发展，若现有路径无法实现复杂任务泛化，需探索新架构 [22] 9. 技术借鉴与应用场景 - 自动驾驶借鉴：自动驾驶技术发展可为机器人技术提供借鉴，但机器人自由度多，泛化难度指数级增长 [23] - 特定场景应用：特定场景使用不同模型可行，可替代部分人工，提高机器人商业化程度；工业应用可通过不同模块组合实现特定场景自动化，但需考虑成本和效率 [24][25] 其他重要但是可能被忽略的内容 - 大语言模型技术借鉴：大语言模型发展历程对物理智能体模型框架在降本增效方面有借鉴意义，COT 和 MOE 等技术重要 [2][20] - 各国技术和模型差距：中美在机器人技术和模型方面均处于早期探索阶段，应用层面未成熟，国外部分 foundation model 表现较好 [26] - 视频生成模型：视频生成模型即世界模型，Google、英伟达、特斯拉做得较好，小鹏汽车宣称开发 77 亿参数左右的世界模型 [27][29]