文章核心观点 - 文章对当前视觉语言动作模型的研究现状进行了批判性分析,认为许多研究在任务设置、环境复杂性和方法透明度上存在显著不足,但同时也肯定了其潜在价值并提出了改进方向[1][8] - 文章认为纯粹的端到端训练方法难以实现真正的通用人工智能,而更倾向于采用结构清晰、训练量小的显式思维链方法[5][8] - 文章指出,在复杂环境下,基于学习的方法相比依赖精确坐标的传统方法可能更具优势,因其更接近人类通过感知误差不断修正行为的方式[4] VLA模型的当前局限与批评 - 任务设置过于简单,主要集中在“抓-放”类操作,缺乏复杂任务挑战[6] - 实验环境高度简化,多为纯色背景、仅放置1-2个物体、无遮挡且大部分是2D平面任务[6] - 模型训练本质上是数据量巨大的“升级版行为克隆”,系统呈现黑盒特性,难以解释模型的实际能力[6] - 部分研究存在实验内容与态度问题,被评价为“劣币驱逐良币”[8] VLA模型的潜在优势与改进思路 - VLA模型并非完全黑盒,例如NVIDIA的CoT-VLA工作展示了可拆分为三层的思维链,其思考模式与人类相似[1] - 真正的挑战在于让模型学会泛化,关键在于设计好子目标嵌入以保证其在遮挡、复杂背景及3D空间中的表现[2][3] - 有效的子目标嵌入应具备语义性、上下文相关性、能指明目标大致区域,并通过融合MLP保证可微性[7] - 在复杂环境下,基于学习的方法相比依赖精确坐标的传统方法可能更具优势,因其更接近人类通过视觉观测感知误差并修正动作以逼近目标的行为方式,无需每一步都遵循完美路线[4] 实现通用AGI的路径探讨 - 纯粹的端到端训练难以产生真正的通用人工智能,AGI需要的是少量样本学习及依靠推理逻辑处理新任务的能力,而非依赖海量数据的“死记硬背”[5] - 倾向于采用显式的VLA思维链方法:由大模型负责拆解任务,动作头根据子目标进行训练与执行,该方法训练量小、结构清晰,便于资源有限的研究者实施[8] - 只要任务拆解得足够细致和准确,无论后续采用基于模型还是基于学习的策略,效果都会不错[8] VLA模型的典型工作流程 - 大语言模型将语言指令拆解为子任务[6] - 视觉语言模型根据当前图像和子任务生成子目标嵌入[6] - 策略模型根据子目标嵌入和当前感知输出动作[6]
冷静看待VLA:不是救世主,也不是“垃圾”
自动驾驶之心·2025-12-26 17:18