视觉域适配
搜索文档
清华和Qwen团队最新!深究VLM如何影响VLA性能?并通过少量新参数转化为VLA策略
具身智能之心· 2026-01-11 11:02
文章核心观点 - 视觉-语言-动作模型是具身智能实现自主操控与环境适应的关键技术框架 其核心价值在于复用成熟视觉-语言模型的通用知识 显著降低开发成本并提升模型的跨场景适应能力 [1][10] - 通过超过100次实验的系统性分析 明确了构建视觉-语言-动作模型的关键影响因素 包括视觉-语言模型骨干选型、辅助任务微调策略以及模块训练策略 并首次明确指出视觉编码器是当前主要的性能瓶颈 [2][11][16] - 视觉-语言-动作模型的发展正从单一范式走向融合 未来将通过“轻量化基础+增强型插件”的自适应架构 平衡效率与性能 加速在家庭服务、工业生产等领域的工程化落地 [19][26] 从视觉-语言理解到具身动作规划的范式转移 - 早期具身智能依赖专用机器人模型 泛化能力受限 当前研究范式已转向利用预训练视觉-语言模型的海量知识来提升动作规划的通用性 [3] - 视觉-语言模型与视觉-语言-动作模型紧密关联 前者提供跨模态理解的“认知基础” 后者则是将理解转化为可执行物理动作的“动作延伸” [3] - 当前研究面临三大核心问题:视觉-语言模型选型与性能关联不明确、辅助任务微调效果未知、以及内部模块作用权重模糊 [3] 视觉-语言模型与视觉-语言-动作模型的差异与统一性 - 核心目标存在本质区别:视觉-语言模型旨在实现跨模态对齐与理解 而视觉-语言-动作模型的目标是将理解转化为机器人可执行的动作序列 [5] - 数学优化目标不同:视觉-语言模型优化表征一致性 视觉-语言-动作模型则需优化动作预测的准确性并考虑物理可行性 [6] - 可通过“VLM4VLA”最小适配框架实现技术统一 该框架在不改变视觉-语言模型主体结构的前提下 引入少于1%的可学习参数将其转化为动作模型 [7][9] 构建视觉-语言-动作模型的必要性与核心组件 - 从泛化视角看 视觉-语言模型提供的先验知识能大幅提升模型跨场景适应能力 从实用视角看 复用成熟模型可显著降低开发成本并加速技术落地 [10] - 实验表明 基于视觉-语言模型初始化的动作模型性能远超从零训练的基线 [10] - 模型性能受三大维度共同影响:视觉-语言模型骨干模型选型、辅助任务微调策略以及模块训练策略 [11] 视觉-语言模型骨干模型选型的影响 - 实验选取了9种主流开源视觉-语言模型 参数规模从1B到30B不等 并在三大基准上进行测试 [12] - 视觉-语言模型的通用能力与其在具身任务中的性能无强关联 例如在通用视觉问答中领先的Qwen2.5VL-7B模型 在部分具身基准上的表现可能不如参数更小的Kosmos-2 [15] - 架构适配性至关重要 专为接地任务优化的模型在部分场景表现好 而侧重通用理解的模型在长序列任务中更具优势 [15] 辅助任务微调策略的影响 - 实验对Qwen2.5VL系列模型进行了7种典型具身辅助任务的微调 发现多数任务微调效果不佳 甚至导致性能下降 [13][20] - 混合通用视觉问答数据与具身数据进行微调的模型性能最接近基线 表明动作模型需要的是广谱的跨模态能力 而非单一具身技能 [20] - 深度图生成、语义分割等生成式辅助任务微调 并未提升动作模型的规划能力 [20] 模块训练策略与视觉编码器的核心瓶颈 - 冻结视觉编码器会导致视觉-语言-动作模型性能大幅下降 例如Paligemma-1模型冻结后 Calvin基准得分从3.506降至0.495 降幅达86% [16][21] - 冻结词嵌入层或语言编码器对性能影响极小 降幅通常小于5% 表明语言理解需求可由预训练能力满足 [16][21] - 视觉编码器的瓶颈源于预训练数据与具身场景数据的域差异 以及不同任务对视觉特征需求的错位 [21] 动作生成范式与优化路径 - 直接映射范式通过“视觉-语言模型跨模态表征+多层感知机动作解码”实现端到端生成 具有轻量化、稳定性强、通用性好的优势 [18][22] - 增强推理范式通过强化视觉-语言模型的具身能力或优化动作生成模块来提升性能 例如向视觉编码器注入控制信息可使Qwen3VL-4B在SimplerBridge基准成功率提升18.1% [19][22] - 未来趋势是范式融合 以直接映射为基础保证效率 在复杂场景引入增强模块提升性能上限 [19] 评估体系的演化与核心指标 - 评估基准正从简单、静态、单一模态场景 向复杂、动态、多模态交互场景演化 以更贴近真实应用 [23][24] - 主流基准包括Calvin ABC-D、SimplerEnv Bridge和Libero-Long 分别侧重于长序列操控、真实-模拟迁移以及多物体交互等不同挑战 [24] - 评估需注意控制随机性、统一实验设置 并重点关注模型在未见过场景的泛化能力 [25][27] 核心技术挑战与未来研究方向 - 当前面临四大挑战:视觉域差异与特征错位、通用能力与具身性能适配难、辅助任务微调有效性边界不明确、以及真实场景落地的公平性与可复现性问题 [27] - 未来研究将聚焦于:视觉模块的域适配技术、构建自适应融合架构、设计专用评估体系以及创新数据与训练策略 [27] - 随着技术进步 视觉-语言-动作模型将推动具身智能从“专用模型”向“通用模型”跨越 加速在多个行业的落地 [26]