Workflow
GROOT
icon
搜索文档
黄仁勋女儿首秀直播:英伟达具身智能布局藏哪些关键信号?
机器人大讲堂· 2025-10-15 23:32
仿真与现实鸿沟(Sim2Real Gap)的挑战与重要性 - 机器人学习面临的核心问题是仿真与现实世界之间存在显著差距,具体体现在感知差距(如视觉、触觉信号差异)、物理交互差距(如物体受力反馈、形变偏差)以及场景复杂度差距(如难以复现真实世界的动态变化)[3][4] - 该鸿沟导致在仿真环境中训练的机器人程序难以直接适配并应用于真实场景[4] - 与主要依赖视觉的自动驾驶仿真相比,机器人领域的仿真挑战更大,因其涉及物理接触、操控,并需结合灵巧手和触觉传感器,问题复杂得多[9] 仿真与合成数据作为解决方案 - 现实中手动采集机器人数据成本高、效率低且存在安全风险,而仿真被认为是突破此数据困境的关键路径[7] - 由于机器人数量有限,难以像自动驾驶汽车那样大规模采集现实数据,因此必须使用合成数据,并坚信合成数据将是解决物理AI数据壁垒最重要、最主要的数据来源[9] - 通过仿真可生成上千种模型并设置不同物理参数,使机器人在几天内完成相当于现实几年的训练量,例如训练机器人叠衣服[12] - 生成式AI技术(如3D计算机视觉、视频生成、3D世界生成)有望提升仿真真实感,优化视觉渲染和物体细节,减少感知差距[6] 英伟达的“三台计算机”战略布局 - 公司致力于打造机器人可学习的“虚拟地球”,其技术体系可通过“三台计算机”的逻辑理解,Sim2Real是串联三者的核心纽带[10] - **AI超级计算机**:是让机器学会处理信息的基础,为机器人核心程序提供算力支撑[10] - **仿真计算机**:以Omniverse和Isaac Sim为核心,让机器在虚拟世界中掌握感知与交互能力,其关键难点在于物理交互,例如电缆、电线仿真是亟待突破的“圣杯级”难题[11] - **物理AI计算机**:由GROOT(通用机器人基础程序)、Cosmos(世界模型)和Jetson Thor(机器人端侧芯片)构成,负责让机器人在真实世界中执行任务,其中Cosmos是衔接仿真与现实的关键环节,能像数据放大器一样生成更多样、更贴近真实情况的数据[11][12] 英伟达与光轮智能的合作关系 - 光轮智能与公司的Sim2Real技术路线高度契合,双方已形成技术共生关系,光轮智能是少数能在物理精度、交互逻辑、场景多样性上全面匹配公司物理智能生态需求的合作方[12] - 公司正重点推进物理AI(含机器人、自动驾驶、数字孪生)的技术落地,核心痛点是缺乏海量真实、多样化的物理交互数据,需要能稳定输出高质量数据的“合成数据工厂”以及愿景一致的合作伙伴,而光轮智能成立的时机恰好满足此需求[15] - 双方对SimReady资产有共识,认为其不仅是数字3D模型,还必须具备真实的物理属性(如冰箱铰链的阻尼、微波炉材质的摩擦系数),光轮智能的核心工作是通过专业设备采集真实物理数据并植入SimReady资产,确保物理属性匹配[16] 英伟达物理智能的全链路体系 - 公司正构建物理智能全链路体系,包括OpenUSD(3D数据标准)、SimReady(仿真资产标准)、Newton(物理计算)、Cosmos(世界模型)[16] - Sim2Real的关键不是让虚拟复制现实,而是通过场景随机化、参数调整让虚拟覆盖现实,使机器人在虚拟中接触足够多的意外情况,从而能在现实中应对自如[12] - 与斯坦福合作的“OmniGibson”仿真引擎已能支持刚体物理、可变形物体(布料、流体)交互,以及物体的加热、切割等复杂状态模拟[6]
能空翻≠能干活!我们离通用机器人还有多远? | 万有引力
AI科技大本营· 2025-05-22 10:47
具身智能技术发展现状 - 具身智能成为AI领域热点方向,重点关注人形机器人载体上的感知、运动、决策能力[2] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域[5] - AI发展分为四个阶段:感知AI→生成式AI→自主智能体AI→物理AI,目前处于第三阶段向第四阶段过渡期[5] - 具身智能研究从传统精密控制向更智能化、通用化方向迈进,大模型能力提升推动这一转变[7] 技术演进路径 - 计算机视觉研究者正转向具身智能领域,因大模型压缩传统CV研究空间[8] - 自动驾驶技术是通向具身智能的重要桥梁,两者在感知、规划、控制模块高度相似[17] - 具身智能可分为"思维智能"与"行动智能",前者包括认知能力,后者关注环境互动[20] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型[25][28] 行业应用前景 - 家庭看护和家务服务是最基础、最现实的需求方向[48] - 检修类场景(如电力、汽车维修)是具身智能最具潜力的应用领域[49] - 工业制造场景中,人形机器人可能比传统自动化更具性价比优势[49] - 生产线机器人最容易落地,高危或高互动性工作最具挑战性[52] 关键技术挑战 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求[55] - 计算资源限制明显,高自由度系统控制困难且成本高昂[39] - 模型架构面临从分层决策到端到端再回归分层的演变[67] - 仿真环境精度不足,难以替代真实世界数据采集[60] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应与新任务应对能力[63] - 从确定性控制转向概率性思维,应对现实世界不确定性[64] - 从分析还原走向整体涌现,展现更强智能与动态逻辑性[64] - 从工具属性转向伙伴属性,实现更自然的协作交互[64] 商业化路径 - 开发者应聚焦专用型机器人而非追求通用能力[42] - 垂直场景配套大客户是具身智能落地的务实选择[44] - 工业领域因其可扩展性成为优先发展方向[45] - 技术从实验室到真实世界仍存在两个数量级的精度差距[46]
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式
机器之心· 2025-05-13 15:08
核心观点 - 通用人工智能研究院与北京大学联合开发了Minecraft Universe (MCU)平台,旨在解决开放世界AI智能体评测的三大瓶颈:任务多样化不足、环境单一、评测效率低下 [1][3][6] - MCU通过3,452个原子任务的无限组合生成、GPT-4o驱动的全自动任务配置、多模态智能评测三大突破,构建了维度丰富的综合评测框架 [6][11][14] - 实验显示当前SOTA模型(GROOT/STEVE-I/VPT系列)在组合任务中的完成率较原子任务下降50%以上,创造性得分普遍低于0.3分(满分1分),揭示泛化能力存在显著缺陷 [17][18][21] 技术架构 任务生成系统 - 支持11大类41子类任务类型(挖矿/合成/战斗/建造等),每个任务可分解为原子级粒度测试控制/规划/推理能力 [13] - 基于GPT-4o实现一句话生成复杂世界场景(含天气/生物群系/初始道具),自动校验任务逻辑可行性(如避免"木镐挖钻石"类错误) [11][14] - 示例任务包括"沙漠建水上屋"、"熔岩坑边缘造瀑布"等,通过调整环境变量(昼夜/地形)生成不同难度版本 [7][20] 评测体系创新 - 引入VLM驱动的多模态评分系统,覆盖任务进度/材料利用率/执行效率等6大维度,评分准确率达91.5% [14] - 采用动态任务进度指标替代传统0/1完成率,可量化阶段性表现(如GROOT在"屋内睡觉"任务中误判率达83%) [21] - 评测效率较人工提升8.1倍,成本仅为1/5,支持单日处理超10万次任务验证 [14] 实验结果 模型性能短板 - 导航类任务:GROOT在熟悉场景平均得分0.72,但环境微调后(草地→屋内)得分骤降至0.33 [18][21] - 组合任务:VPT(RL)在采矿+建造的复合任务中成功率仅23%,较单一采矿任务下降41个百分点 [18] - 创造性缺陷:所有模型在建造类任务的创新得分均未超过0.38分(STEVE-I在"瀑布建造"中得分为0.05) [18][21] 行业启示 - 现有模型过度依赖预设环境(如VPT在陌生生物群系中错误识别率达65%),暴露语义理解不足 [17][22] - 长周期任务(持续数小时)的完成率普遍低于20%,反映长期规划能力缺失 [6][21] - 评测结果指明研发方向:需提升任务本质理解能力而非表面指令执行 [22]