Workflow
CogAgent
icon
搜索文档
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 21:41
文章核心观点 - 基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型是机器人操控领域的变革性范式,通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学(深圳)团队首次提出系统性分类法,将VLA模型划分为单体模型(Monolithic Models)和层级模型(Hierarchical Models),以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合,未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范,在非结构化环境中泛化能力有限,而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM(如LLaVA1.5、Qwen-VL)采用三组件架构:视觉编码器、投影器和大型语言模型,统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token,与语言输出联合训练,实现语义理解能力飞跃(如RT-2相比RT-1在未见过指令任务上成功率显著提升) [12][13] 单体模型(Monolithic Models) - 单系统架构(如RT系列、OpenVLA)统一处理视觉、语言和动作生成,通过自回归解码生成动作token,参数量达70亿级别 [14][17][18] - 双系统架构(如π0、CogACT)分离快速反应的动作专家与慢速推理的VLM骨干,通过级联或并行方式协作,推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知(如SpatialVLA、TraceVLA)、多模态融合(触觉、音频)和推理优化(动态token剪枝、1-bit量化) [21][23][31] 层级模型(Hierarchical Models) - 规划器+策略架构明确解耦高层规划与底层执行,生成可解释中间输出(如关键点、程序代码),支持长时程任务 [43][44][53] - 仅规划器方法(如Chain-of-Modality)生成可执行程序或文本指令,而规划器+策略模型(如HiRobot)通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法(如HAMSTER、RoboPoint)预测交互区域或轨迹路点,结合优化器生成动作,在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号(如VLA-RL的RPRM模型)和离线-在线混合训练(如ReWiND)解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法(如FlashVLA、EfficientVLA)通过触发机制和token复用跳过冗余计算,实现最高5倍训练加速 [62][63][64] - 人类视频学习(如UniVLA、LAPA)对齐人类-机器人交互特征,世界模型集成(如WorldVLA)通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐,支持深度、触觉等模态扩展(如PointVLA集成点云数据) [69][71][73] - 指令遵循能力支持语义锚定(如ChatVLA-2理解白板数学问题)和思维链推理(如CoT-VLA预测视觉子目标) [74][76][75] - 跨领域泛化能力显著,如DexVLA实现跨机器人形态技能迁移,π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集(如OXE)整合22个机器人平台超100万演示,覆盖500多种技能,但长尾分布数据仍不足 [82][83][84] - 仿真基准(如BEHAVIOR、ALFRED)支持多阶段语言指令任务,CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集(如Ego4D、EPIC-Kitchens)提供829小时密集手部追踪视频,支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准,包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知(整合深度与时间演化)、移动操作(导航与抓取协同)和多智能体协作(共享世界模型) [93][94][96] - 模型效率优化需平衡计算资源与实时需求,通过动态token剪枝和硬件友好量化降低延迟 [98]
智谱CEO张鹏:加速Agent模型产品研发,期待尽快实现一句话操作电脑和手机
IPO早知道· 2024-11-30 10:36
公司技术进展 - 智谱于11月29日发布AutoGLM升级版 可自主执行超过50步的长步骤操作并支持跨App执行任务 [2] - AutoGLM具备四大能力 包括理解超长指令执行超长任务 支持跨App执行 支持长任务自定义短语 以及主动决策的随便模式 [2] - AutoGLM启动大规模内测 将尽快上线成为面向C端用户的产品 并启动10个亿级App免费Auto升级计划邀请App伙伴探索新场景 [2] - 智谱推出基于PC的自主Agent GLM-PC 基于多模态模型CogAgent实现会议替身预定和参与会议发送总结 以及文档处理下载发送理解总结等功能 [2] - GLM-PC支持网页搜索与总结 可在指定平台搜索关键词完成阅读总结 并支持远程定时操作及隐形屏幕功能在用户工作时自主完成工作 [3] 技术发展路径与愿景 - 智谱定义大模型发展五阶段 L1语言能力 L2逻辑与多模态能力 L3使用工具能力 L4自我学习能力 L5探究科学规律 [3] - Agent技术将极大提升L3使用工具能力 同时开启对L4自我学习能力的探索 智谱CEO张鹏表示团队将继续加速Agent模型产品研发 [3] - Agent是目标驱动型 能够完全执行工作流程 适应学习迭代 与其他系统和人类协作 并端到端完成任务 可视为大模型通用操作系统LLM-OS的雏形 [3] - AutoGLM在人与应用间添加执行调度层 改变人机交互形式 并展现LLM-OS可能性 基于大模型智能能力未来有望实现原生人机交互新范式 [5] 研发历程 - 智谱从23年4月AgentBench开始 到8月CogAgent模型 针对AutoGLM和GLM-PC的模型研发工作已进行一年半时间 [3]