英伟达给机器人装上龙虾大脑！具身智能的Harness来了

英伟达开源机器人操控框架CaP-X - 英伟达开源了一个全新的机器人操控框架CaP-X，标志着机器人领域迎来了自己的“Harness”时代 [1][11] - 该框架能让机器人通过摄像头理解环境，并现场编写Python代码来控制自己 [2] - 成功的代码会被自动存入技能库，并可适用于不同本体和形态的机器人系统 [3] CaP-X的核心机制与优势 - 框架将具身大模型（如VLA）当作API来调用，实现一个“大脑”驾驭各类“小脑”（感知与控制） [3] - 其核心思想是“代码即策略”，让大模型从发号施令的指挥官，转变为能写代码的程序员 [22][49] - 该方法用通用的编程智能体取代了人类工程师，并能在工作中自动合成技能库和调用专攻操作的具身模型 [26] 框架性能表现 - 基于该框架打造的CaP-Agent0，在7项核心任务中，有4项任务的成功率追平甚至超过了人类专家手写程序 [4][41] - 即便面对OpenVLA、Pi系列等基于预训练的端到端大模型，CaP-X也展现出了旗鼓相当甚至更领先的性能 [6] - 在LIBERO-PRO的长程任务中，面对指令或位置的随机干扰，CaP-Agent0展现出比OpenVLA等模型更强大的鲁棒性 [43] 与传统及主流方法的对比 - 传统机器人控制依赖工程师逐行编写逻辑，泛化性差，经常“换个杯子，代码重写” [14][15] - 主流的视觉-语言-动作模型虽战绩斐然，但作为“黑盒”难以调试，且遇到新任务需重新训练 [16][17][18] - CaP-X方案中，VLA策略变成了代码里的一行可调用的函数，用于执行高频、重手感的精细操作 [23][24] CaP-X框架的构成组件 - CaP-Gym：基于标准Gymnasium接口的层级化控制框架，统一了感知基元与控制基元，内置SAM3（语义分割）和Molmo 2（点选）等工具，为模型提供交互式沙盒 [28][29][31] - CaP-Bench：用于衡量模型“驾驭”机器人能力的基准测试，从抽象层级、时间交互、感知落地三个维度进行评估 [28][33][36] - CaP-Agent0：一个无需训练的智能体框架，通过多轮推理循环和动态合成技能库增强基础模型 [28][38][40] - CaP-RL：利用环境反馈作为奖励，用强化学习后训练编程模型本身，提升其代码直觉 [28][40] 技术突破与核心能力 - CaP-Agent0具备多轮视觉差异比对能力，将前后帧视觉差异转化为结构化语言反馈以修改代码 [42] - 具备自动合成的持久化技能库，成功代码被封装为可复用技能，形成庞大技能库使复杂问题简单化 [42] - 采用并行集成推理，遇到难题时同时生成多种方案并行尝试 [42] - 由于CaP-RL在代码逻辑层而非像素层进行训练，其能力可直接零样本无损迁移到真实世界的机器人上 [43] 当前局限性与未来方向 - 在需要极高频视觉反馈和细腻触觉感知的“精细活儿”上，纯代码方案还显得脆弱 [45] - 一个极具前景的方向是CaP–VLA混合策略，由编程智能体管理高层任务逻辑和错误恢复，而将底层执行委派给VLA模型 [46] - 通过引入基于优化的控制基元，可以进一步提升鲁棒性 [46] 对行业的意义与影响 - 该框架证明了具身智能的突破，或许不需要无休止地堆砌真实的遥操数据 [53] - 它给出了一个新解法：给大模型一个合理的“驾驭框架”，让它在代码虚拟沙箱中自我试错与提炼，从而进化出适应物理世界的能力 [54] - 英伟达机器人总管Jim Fan比喻：如果说Harness之于大模型是把引擎装进车，那么CaP-X之于机器人就是让引擎学会了根据路况自己写驱动程序并随时升级 [10]