Workflow
Instruct2Act
icon
搜索文档
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-25 12:21
温馨提示 : 点击下方图片,查看运营团队2025年6月最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w ) 微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 早期小编整理文章 【技术干货】"具身智能 "技术最全解析 , 本篇文章重点解读现阶段大火的 视觉-语言-动作 (VLA)模型, 一种整合视觉(Vision)、语言(Language)和动作(Action)的多模态模型 。 2022年,Google和CMU相继推出"SayCan"、"Instruct2Act" 工作,Transformer模型既看图、又读指令、还能 生成生成动作轨迹成为可能;2023年,随着谷歌DeepMind推出RT-2模型,机器人可以端到端地从给定的语言指 令和视觉信号,直接生成特定的动作,具身智能领域也迎来了一个新名词: VLA(Vision-Language-Action Model,视觉-语言-动作模型)。 如果说过去十年,机器人领域的焦点先后经历了「看得见」的视觉感知、「听得懂」的语言理解, ...
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-20 12:23
具身智能与VLA模型技术发展 核心观点 - VLA模型(视觉-语言-动作模型)是整合视觉、语言和动作的多模态模型,推动机器人从"看得见"、"听得懂"迈向"动得准"的新阶段 [1] - 2022年Google和CMU的"SayCan"、"Instruct2Act"工作首次实现Transformer模型同时处理视觉、语言和动作轨迹生成,2023年谷歌DeepMind的RT-2模型进一步实现端到端动作生成 [1] - VLA模型被视为端到端大模型2.0,其核心优势在于拟人化推理与全局理解能力,显著缩短指令理解与任务执行的距离 [2][3] 技术框架与特性 - **核心组件**:视觉编码器(提取图像特征)、文本编码器(处理指令)、动作解码器(输出10-30秒动作路径) [2] - **四大特性**: 1 架构继承(仅新增动作输出模块) 2 动作token化(将动作转化为语言形式表示) 3 端到端学习(感知-推理-控制一体化) 4 可泛化性(预训练VLM支持跨任务迁移) [4] 行业应用与挑战 - **商业化进展**:2025年起多家公司发布自研VLA模型,双系统架构(分离VLM与动作执行模型)成为主流技术路径 [5][6] - **数据瓶颈**:训练需大规模多模态同步数据,但硬件商用不足导致数据采集成本高,依赖专家数据集限制复杂任务表现(如RT-2难以处理"准备早餐"等多步骤任务) [7] - **技术缺陷**:缺乏长期规划能力,VLM(大脑)与动作模型(小脑)连接依赖语言指令直接映射,时序处理不足导致长流程任务中易出现步骤遗漏或逻辑混乱 [7] 行业生态与趋势 - **主流玩家分类**:涉及五类企业,技术方案涵盖双架构VLA模型等5大类方向 [5] - **赛道热点**:车企、产业链公司及智驾从业者加速涌入,技术路线聚焦"大脑优先"与"运动优先"之争 [5] - **落地场景**:需突破灵巧手等执行端技术(被称为机器人"最后一厘米"),解决商业化卡点 [5]