Instruct2Act

搜索文档
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-25 12:21
具身智能与VLA模型技术发展 - VLA模型(视觉-语言-动作模型)是整合视觉、语言和动作的多模态模型,代表具身智能领域的最新进展,推动机器人进入「动得准」阶段 [1] - 2022年Google与CMU的"SayCan"、"Instruct2Act"项目首次实现Transformer模型同步处理视觉指令与动作生成,2023年DeepMind的RT-2模型实现端到端动作生成 [1] VLA模型技术架构 - 核心组件包括视觉编码器(提取图像特征)、文本编码器(处理指令)、动作解码器(输出10-30秒动作路径),形成端到端大模型2.0架构 [2] - 相比传统VLM模型新增动作解码能力,具备更高拟人化与可解释性,支持类人推理与全局理解 [2] - 四大核心特性:架构继承(仅替换输出模块)、动作token化(语言形式表示动作)、端到端学习(感知-推理-控制一体化)、预训练VLM强泛化能力 [4] 行业应用与商业化进展 - 2025年起多家公司发布VLA模型,该技术显著缩短指令理解与执行距离,提升机器人对复杂环境的适应能力 [3] - 双系统架构成为主流技术路径,将VLA拆分为VLM(大脑)与动作执行模型(小脑)以解决长链条端到端问题 [5][6] 技术瓶颈与挑战 - 数据短缺:需同步视觉/语言/动作的高质量多模态数据,采集成本高且可扩展性差,依赖专家数据集导致复杂任务(如多步骤协作)表现受限 [7] - 规划能力缺陷:VLM与动作模型间缺乏时序依赖处理,语义跟随性差导致长流程任务易出现步骤遗漏或逻辑混乱 [7] 行业生态与研究方向 - 主流玩家覆盖五类企业,技术方案分为5大类,重点关注双架构VLA模型的优势比较与落地场景 [5] - 研究方向包括跨任务迁移能力提升、动作token化优化、端到端学习效率改进等 [4][5]
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-20 12:23
具身智能与VLA模型技术发展 核心观点 - VLA模型(视觉-语言-动作模型)是整合视觉、语言和动作的多模态模型,推动机器人从"看得见"、"听得懂"迈向"动得准"的新阶段 [1] - 2022年Google和CMU的"SayCan"、"Instruct2Act"工作首次实现Transformer模型同时处理视觉、语言和动作轨迹生成,2023年谷歌DeepMind的RT-2模型进一步实现端到端动作生成 [1] - VLA模型被视为端到端大模型2.0,其核心优势在于拟人化推理与全局理解能力,显著缩短指令理解与任务执行的距离 [2][3] 技术框架与特性 - **核心组件**:视觉编码器(提取图像特征)、文本编码器(处理指令)、动作解码器(输出10-30秒动作路径) [2] - **四大特性**: 1 架构继承(仅新增动作输出模块) 2 动作token化(将动作转化为语言形式表示) 3 端到端学习(感知-推理-控制一体化) 4 可泛化性(预训练VLM支持跨任务迁移) [4] 行业应用与挑战 - **商业化进展**:2025年起多家公司发布自研VLA模型,双系统架构(分离VLM与动作执行模型)成为主流技术路径 [5][6] - **数据瓶颈**:训练需大规模多模态同步数据,但硬件商用不足导致数据采集成本高,依赖专家数据集限制复杂任务表现(如RT-2难以处理"准备早餐"等多步骤任务) [7] - **技术缺陷**:缺乏长期规划能力,VLM(大脑)与动作模型(小脑)连接依赖语言指令直接映射,时序处理不足导致长流程任务中易出现步骤遗漏或逻辑混乱 [7] 行业生态与趋势 - **主流玩家分类**:涉及五类企业,技术方案涵盖双架构VLA模型等5大类方向 [5] - **赛道热点**:车企、产业链公司及智驾从业者加速涌入,技术路线聚焦"大脑优先"与"运动优先"之争 [5] - **落地场景**:需突破灵巧手等执行端技术(被称为机器人"最后一厘米"),解决商业化卡点 [5]