具身智能与VLA模型技术发展 核心观点 - VLA模型(视觉-语言-动作模型)是整合视觉、语言和动作的多模态模型,推动机器人从"看得见"、"听得懂"迈向"动得准"的新阶段 [1] - 2022年Google和CMU的"SayCan"、"Instruct2Act"工作首次实现Transformer模型同时处理视觉、语言和动作轨迹生成,2023年谷歌DeepMind的RT-2模型进一步实现端到端动作生成 [1] - VLA模型被视为端到端大模型2.0,其核心优势在于拟人化推理与全局理解能力,显著缩短指令理解与任务执行的距离 [2][3] 技术框架与特性 - 核心组件:视觉编码器(提取图像特征)、文本编码器(处理指令)、动作解码器(输出10-30秒动作路径) [2] - 四大特性: 1 架构继承(仅新增动作输出模块) 2 动作token化(将动作转化为语言形式表示) 3 端到端学习(感知-推理-控制一体化) 4 可泛化性(预训练VLM支持跨任务迁移) [4] 行业应用与挑战 - 商业化进展:2025年起多家公司发布自研VLA模型,双系统架构(分离VLM与动作执行模型)成为主流技术路径 [5][6] - 数据瓶颈:训练需大规模多模态同步数据,但硬件商用不足导致数据采集成本高,依赖专家数据集限制复杂任务表现(如RT-2难以处理"准备早餐"等多步骤任务) [7] - 技术缺陷:缺乏长期规划能力,VLM(大脑)与动作模型(小脑)连接依赖语言指令直接映射,时序处理不足导致长流程任务中易出现步骤遗漏或逻辑混乱 [7] 行业生态与趋势 - 主流玩家分类:涉及五类企业,技术方案涵盖双架构VLA模型等5大类方向 [5] - 赛道热点:车企、产业链公司及智驾从业者加速涌入,技术路线聚焦"大脑优先"与"运动优先"之争 [5] - 落地场景:需突破灵巧手等执行端技术(被称为机器人"最后一厘米"),解决商业化卡点 [5]
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录·2025-06-20 12:23