代码即策略
搜索文档
英伟达给机器人装上龙虾大脑,具身智能的Harness来了
36氪· 2026-04-02 19:47
文章核心观点 - 英伟达开源了全新的机器人操控框架CaP-X,标志着机器人领域正式迎来“Harness”时代,即智能体机器人时代的开启[1][5] - CaP-X框架的核心创新在于让大模型(如GPT、Gemini)从“发号施令的指挥官”转变为“能写代码的程序员”,通过生成Python代码直接控制机器人,并能自动积累和复用技能[2][10] - 该框架在多项核心任务测试中表现优异,基于其打造的CaP-Agent0在7项任务中有4项成功率追平甚至超过人类专家手写程序,展现出强大的潜力[3][21] 技术框架与构成 - CaP-X是一整套驾驭框架,主要包括:交互式训练环境CaP-Gym、层级化基准测试CaP-Bench、无需训练的智能体框架CaP-Agent0和强化学习进化算法CaP-RL[13] - CaP-Gym作为核心,是一个连接数字大脑与物理身体的层级化控制框架,统一了感知基元与控制基元,为大模型提供了一个进行“逻辑编程”的交互式沙盒[14][15] - CaP-Bench是一个基准测试套件,用于从抽象层级、时间交互和感知落地三个维度衡量模型生成代码控制机器人的能力[16][17] 性能表现与优势 - 在CaP-Bench的测试中,面对最底层的原子基元,CaP-Agent0在7项核心任务中有4项成功率追平甚至超越人类专家手写程序[3][21] - 在LIBERO-PRO的长程任务中,面对指令或位置的随机干扰,CaP-Agent0展现出了比OpenVLA等端到端预训练模型更强大的鲁棒性[22] - 与传统的端到端视觉-语言-动作模型相比,CaP-X这种“靠逻辑取胜”的方案在性能上旗鼓相当甚至更领先,且其基于代码逻辑层强化学习的能力可以零样本无损迁移到真实机器人[4][22] 工作原理与创新 - CaP-X框架实现了“代码即策略”,让大模型直接生成控制机器人的Python代码,这比传统方法更擅长表达条件判断、反馈回路和精确数值控制[26][27] - 框架内的CaP-Agent0通过多轮视觉差异比对、自动合成持久化技能库以及并行集成推理等机制,显著提升了模型在复杂任务中的代码生成与纠错能力[20] - 该框架能将具身大模型(如VLA)当作API调用,在需要精细操作时,编程智能体可直接调用VLA来执行,形成了高层逻辑规划与底层精细执行的混合策略[11][23] 行业背景与意义 - 当前机器人控制的主流做法正从需要大量人工干预的传统方法,转向基于数据驱动的端到端VLA模型,但后者存在“黑盒”难以调试和新任务需重新训练的问题[6][7][9] - CaP-X的推出为行业提供了新解法:通过给大模型一个合理的“驾驭框架”,让其在代码虚拟沙箱中自我试错和提炼,从而进化出适应物理世界的能力,这减少了对海量真实遥操数据的依赖[30][31] - 这一进展被行业专家评价为机器人“代码即策略”前景的重要里程碑,预示着智能体机器人时代的到来[5][6]
英伟达给机器人装上龙虾大脑!具身智能的Harness来了
量子位· 2026-04-02 17:07
英伟达开源机器人操控框架CaP-X - 英伟达开源了一个全新的机器人操控框架CaP-X,标志着机器人领域迎来了自己的“Harness”时代 [1][11] - 该框架能让机器人通过摄像头理解环境,并现场编写Python代码来控制自己 [2] - 成功的代码会被自动存入技能库,并可适用于不同本体和形态的机器人系统 [3] CaP-X的核心机制与优势 - 框架将具身大模型(如VLA)当作API来调用,实现一个“大脑”驾驭各类“小脑”(感知与控制) [3] - 其核心思想是“代码即策略”,让大模型从发号施令的指挥官,转变为能写代码的程序员 [22][49] - 该方法用通用的编程智能体取代了人类工程师,并能在工作中自动合成技能库和调用专攻操作的具身模型 [26] 框架性能表现 - 基于该框架打造的CaP-Agent0,在7项核心任务中,有4项任务的成功率追平甚至超过了人类专家手写程序 [4][41] - 即便面对OpenVLA、Pi系列等基于预训练的端到端大模型,CaP-X也展现出了旗鼓相当甚至更领先的性能 [6] - 在LIBERO-PRO的长程任务中,面对指令或位置的随机干扰,CaP-Agent0展现出比OpenVLA等模型更强大的鲁棒性 [43] 与传统及主流方法的对比 - 传统机器人控制依赖工程师逐行编写逻辑,泛化性差,经常“换个杯子,代码重写” [14][15] - 主流的视觉-语言-动作模型虽战绩斐然,但作为“黑盒”难以调试,且遇到新任务需重新训练 [16][17][18] - CaP-X方案中,VLA策略变成了代码里的一行可调用的函数,用于执行高频、重手感的精细操作 [23][24] CaP-X框架的构成组件 - **CaP-Gym**:基于标准Gymnasium接口的层级化控制框架,统一了感知基元与控制基元,内置SAM3(语义分割)和Molmo 2(点选)等工具,为模型提供交互式沙盒 [28][29][31] - **CaP-Bench**:用于衡量模型“驾驭”机器人能力的基准测试,从抽象层级、时间交互、感知落地三个维度进行评估 [28][33][36] - **CaP-Agent0**:一个无需训练的智能体框架,通过多轮推理循环和动态合成技能库增强基础模型 [28][38][40] - **CaP-RL**:利用环境反馈作为奖励,用强化学习后训练编程模型本身,提升其代码直觉 [28][40] 技术突破与核心能力 - CaP-Agent0具备**多轮视觉差异比对**能力,将前后帧视觉差异转化为结构化语言反馈以修改代码 [42] - 具备**自动合成的持久化技能库**,成功代码被封装为可复用技能,形成庞大技能库使复杂问题简单化 [42] - 采用**并行集成推理**,遇到难题时同时生成多种方案并行尝试 [42] - 由于CaP-RL在代码逻辑层而非像素层进行训练,其能力可直接零样本无损迁移到真实世界的机器人上 [43] 当前局限性与未来方向 - 在需要极高频视觉反馈和细腻触觉感知的“精细活儿”上,纯代码方案还显得脆弱 [45] - 一个极具前景的方向是**CaP–VLA混合策略**,由编程智能体管理高层任务逻辑和错误恢复,而将底层执行委派给VLA模型 [46] - 通过引入基于优化的控制基元,可以进一步提升鲁棒性 [46] 对行业的意义与影响 - 该框架证明了具身智能的突破,或许不需要无休止地堆砌真实的遥操数据 [53] - 它给出了一个新解法:给大模型一个合理的“驾驭框架”,让它在代码虚拟沙箱中自我试错与提炼,从而进化出适应物理世界的能力 [54] - 英伟达机器人总管Jim Fan比喻:如果说Harness之于大模型是把引擎装进车,那么CaP-X之于机器人就是让引擎学会了根据路况自己写驱动程序并随时升级 [10]