英伟达开始搞机器人自己研究机器人那套了……

文章核心观点 - 英伟达联合卡内基梅隆大学和加州大学伯克利分校推出具身智能自主研究框架ENPIRE，该框架使AI智能体能够自主在物理世界中进行机器人研究，实现从提出想法、训练策略、真机测试到总结经验的全自动化闭环，无需人类值守[1][6][13] - ENPIRE框架在多个高难度灵巧操作任务上验证有效，例如在Pin Insertion任务中，仅用3小时就将成功率从0提升至99%，并且通过多智能体并行将达成目标的时间从单机模式的1.5小时缩短至40分钟[3][22][39] - 该框架的核心价值在于通过自动化实验台（Harness Framework）解决了物理世界实验的复位、评分等难题，将混乱的现实世界包装成可迭代的研究环境，是机器人实现“自主研究”的关键一步，并可能开启“物理Scaling”的新范式[10][11][19][39] 技术框架与实现 - ENPIRE框架由四个模块组成闭环：环境模块（EN）负责自动复位与评分、策略改进（PI）提出新方案、部署测试（R）在真机执行、进化（E）实现多智能体协作与知识共享[13][20] - 框架解决了物理世界实验的核心难题：通过环境模块实现自动复位（如将GPU从主板拔出并复位）和自动评分（如用双视角视觉检测判定扎带任务成功，延迟小于150毫秒），这些功能被固化为标准API供智能体调用[15][16][17] - 研究采用多智能体协作模式，8个Coding Agent各控制一台双臂机器人，通过Git共享代码、互相吸收有效方案并淘汰失败路线，实现了研究过程的并行化与知识传承[1][20][40] 实验效果与智能体行为 - 在四项高难度灵巧操作任务（推动T形积木、针插入4毫米孔洞、GPU插入主板插槽、扎带穿扎与剪切）中，最终全部达到了99%的成功率[22] - 智能体的研究过程高度自主：以针插入任务为例，智能体自主尝试了行为克隆、加入在线强化学习数据、增加正则化项、调整批处理大小和补偿控制器延迟等一系列步骤，将成功率从接近零推至接近100%，整个过程无人为干预[24][25][38] - 智能体展现出类似人类研究员的策略调整能力：在扎带任务中，因操作链过长，智能体主动放弃端到端训练，转而采用视觉-语言-动作模型进行粗定位再调用工具API的混合架构[29][31][32] 行业意义与前景 - ENPIRE被视为实现机器人领域“大平行”愿景中“自主研究”阶段的关键拼图，此前英伟达已在机器人预训练、对齐微调和强化学习阶段有相应布局[41][42][43] - 该框架将数字世界的“自主研究”范式首次引入物理世界，通过扩展机器人舰队而非仅GPU集群来实现“物理Scaling”，提升了研究效率，但代价是Token消耗随智能体数量增长更快[36][37][39][40] - 项目将开源，理论上允许他人搭建自运行机器人实验室，但实际门槛较高，需要8台机器人、英伟达GPU以及运行编码智能体所需的Token预算[45]