英伟达开源机器人操控框架CaP-X - 英伟达开源了一个全新的机器人操控框架CaP-X,标志着机器人领域迎来了自己的“Harness”时代 [1][11] - 该框架能让机器人通过摄像头理解环境,并现场编写Python代码来控制自己 [2] - 成功的代码会被自动存入技能库,并可适用于不同本体和形态的机器人系统 [3] CaP-X的核心机制与优势 - 框架将具身大模型(如VLA)当作API来调用,实现一个“大脑”驾驭各类“小脑”(感知与控制) [3] - 其核心思想是“代码即策略”,让大模型从发号施令的指挥官,转变为能写代码的程序员 [22][49] - 该方法用通用的编程智能体取代了人类工程师,并能在工作中自动合成技能库和调用专攻操作的具身模型 [26] 框架性能表现 - 基于该框架打造的CaP-Agent0,在7项核心任务中,有4项任务的成功率追平甚至超过了人类专家手写程序 [4][41] - 即便面对OpenVLA、Pi系列等基于预训练的端到端大模型,CaP-X也展现出了旗鼓相当甚至更领先的性能 [6] - 在LIBERO-PRO的长程任务中,面对指令或位置的随机干扰,CaP-Agent0展现出比OpenVLA等模型更强大的鲁棒性 [43] 与传统及主流方法的对比 - 传统机器人控制依赖工程师逐行编写逻辑,泛化性差,经常“换个杯子,代码重写” [14][15] - 主流的视觉-语言-动作模型虽战绩斐然,但作为“黑盒”难以调试,且遇到新任务需重新训练 [16][17][18] - CaP-X方案中,VLA策略变成了代码里的一行可调用的函数,用于执行高频、重手感的精细操作 [23][24] CaP-X框架的构成组件 - CaP-Gym:基于标准Gymnasium接口的层级化控制框架,统一了感知基元与控制基元,内置SAM3(语义分割)和Molmo 2(点选)等工具,为模型提供交互式沙盒 [28][29][31] - CaP-Bench:用于衡量模型“驾驭”机器人能力的基准测试,从抽象层级、时间交互、感知落地三个维度进行评估 [28][33][36] - CaP-Agent0:一个无需训练的智能体框架,通过多轮推理循环和动态合成技能库增强基础模型 [28][38][40] - CaP-RL:利用环境反馈作为奖励,用强化学习后训练编程模型本身,提升其代码直觉 [28][40] 技术突破与核心能力 - CaP-Agent0具备多轮视觉差异比对能力,将前后帧视觉差异转化为结构化语言反馈以修改代码 [42] - 具备自动合成的持久化技能库,成功代码被封装为可复用技能,形成庞大技能库使复杂问题简单化 [42] - 采用并行集成推理,遇到难题时同时生成多种方案并行尝试 [42] - 由于CaP-RL在代码逻辑层而非像素层进行训练,其能力可直接零样本无损迁移到真实世界的机器人上 [43] 当前局限性与未来方向 - 在需要极高频视觉反馈和细腻触觉感知的“精细活儿”上,纯代码方案还显得脆弱 [45] - 一个极具前景的方向是CaP–VLA混合策略,由编程智能体管理高层任务逻辑和错误恢复,而将底层执行委派给VLA模型 [46] - 通过引入基于优化的控制基元,可以进一步提升鲁棒性 [46] 对行业的意义与影响 - 该框架证明了具身智能的突破,或许不需要无休止地堆砌真实的遥操数据 [53] - 它给出了一个新解法:给大模型一个合理的“驾驭框架”,让它在代码虚拟沙箱中自我试错与提炼,从而进化出适应物理世界的能力 [54] - 英伟达机器人总管Jim Fan比喻:如果说Harness之于大模型是把引擎装进车,那么CaP-X之于机器人就是让引擎学会了根据路况自己写驱动程序并随时升级 [10]
英伟达给机器人装上龙虾大脑!具身智能的Harness来了