如何看待目前VLA的具身智能技术?VLA还算是弱智人?
自动驾驶之心·2025-06-27 17:15
VLA技术现状分析 - VLA本质上是升级版行为克隆(BC)技术 缺乏创新性突破 [1] - 当前VLA系统仅能处理极简化的pick-place任务 成功率计算存在严重水分 [3] - 行业存在将单一任务拆分为多个子任务来夸大通用性的现象 [4][5] 技术局限性 - 任务复杂度局限:仅能处理2D平面内1-2个物体的抓取放置 无法应对3D空间操作 [7][10] - 场景适应性差:要求纯色背景且物体数量≤2 与真实世界复杂环境严重脱节 [8][9] - 数据效率低下:需数百次演示数据训练单一简单任务 违背few-shot学习原则 [15] 行业实践问题 - 测试标准失真:通过精心设计的演示场景和拍摄角度人为提高成功率 [17] - 能力边界模糊:缺乏明确的能力评估体系 无法界定系统可处理任务范围 [16] - 技术路线争议:纯端到端训练方式难以实现真正的通用性和可解释性 [18][19] 核心批评观点 - VLA技术回避了机器人领域真正需要解决的复杂问题 [18] - 当前研究过度简化任务难度来获得表面上的高成功率 [3][6] - 行业存在将简单技术包装成突破性进展的泡沫现象 [18][20]