GR00T N1.5

搜索文档
亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式
量子位· 2025-07-24 15:28
具身智能技术突破 - 具身智能领域当前技术重点在于让机器人从看懂世界到理解意图再到做出动作 [1] - 真机数据匮乏导致视觉-语言-动作(VLA)模型发展受限 现有数据规模与上亿级训练样本需求相差三个数量级 [2] - 北京大学团队利用人类操作视频提取手部运动轨迹 构建了规模达亿级的训练数据集 [3] Being-H0模型创新 - 提出"物理指令微调"方法框架 实现人类手部运动到机器人动作空间的精确映射 [5] - Being-H0是首个基于人类视频手部数据的大规模预训练VLA模型 [6] - 模型假设人类手部运动是最完备的操作执行器 机器人末端执行器均可视为其子集 [6] 数据与方法创新 - 利用短视频时代易获取的人类视频数据 避免仿真环境数据采集的"虚拟-现实"差异问题 [8] - 构建规模达1.5亿的UniHand数据集 整合11个开源数据源的多模态数据 [17][18][20] - 仅使用250万条样本预训练就展现出显著性能提升 [21] 技术框架设计 - 采用分部位动作编码方案 手腕和手指分别设计专用编码器 动作姿态重建误差控制在毫米级 [12] - 物理空间对齐技术消除多源数据在相机参数、观测视角等方面的差异性 [13] - 建立从人类动作到机器人操作的高效转换通道 [14] 性能验证 - 在Pick-Place-Toy等7项任务中 Being-H0表现优于GR00T N1.5和InternVL3模型 [22][23] - 在相同数据量条件下 Being-H0始终展现出稳定的性能优势 [25] - 显著降低真机数据需求 25%数据量即可达到其他模型100%数据量的性能 [25][27] 行业影响 - 突破数据封锁桎梏 为机器人灵巧操作研究开辟新范式 [30] - 团队持续攻坚具身智能大模型、灵巧操作、全身运动控制等核心技术 [31]
Being-H0:从大规模人类视频中学习灵巧操作的VLA模型
具身智能之心· 2025-07-23 16:45
研究背景与动机 - 大语言模型和多模态模型在文本、图像领域取得突破,但机器人领域缺乏类似"ChatGPT时刻"的变革 [3] - 现有视觉-语言-动作模型(VLAs)在复杂灵巧操作任务中表现不佳,主要受限于数据问题:合成数据存在"仿真到真实"鸿沟,远程操作演示规模小、多样性不足 [3] - 人类视频蕴含丰富操作数据,但面临四大挑战:数据异质性、手部运动量化、跨模态推理、机器人控制转移 [3] 核心方法:物理指令调优 - 提出物理指令调优范式,通过"预训练-物理空间对齐-后训练"三阶段将人类手部运动知识迁移到机器人操作 [4] - 预训练阶段以人类手为理想操纵器,在大规模人类视频上训练基础VLA,学习视觉、语言到运动的映射 [6] - 物理空间对齐阶段通过弱透视投影对齐和视角不变运动分布平衡策略统一多源数据的3D推理 [10][12] 关键技术:运动token化与跨模态融合 - 采用分组残差量化(GRQ)进行部分级运动token化,将手部运动分解为手腕和手指两部分分别处理,保留毫米级精度 [14][18] - 跨模态融合通过共享注意力机制实现视觉、语言和运动token的统一交互,视觉token替换文本占位符,运动token作为结构化块插入序列 [17][23] UniHand数据集 - 构建包含44万任务轨迹、1.3亿帧视频、1100多小时内容的UniHand数据集,生成1.65亿运动-指令对 [21] - 数据集整合三类数据源:高精度运动捕捉数据、VR录制数据、伪标注真实场景视频 [24] - 采样250万样本(UniHand-2.5M)用于预训练,平衡任务和数据源分布 [21] 实验结果 - 14B模型在运动生成任务中表现最优:MPJPE 6.87mm(头部)、8.11mm(尾部),MWTE 5.19mm(头部)、7.41mm(尾部) [25] - 长序列生成中,14B模型误差累积更少:短期(2-5s)MPJPE 7.43-8.39mm,长期(6-10s)MPJPE 7.98-9.72mm [27] - 真实机器人操作任务成功率显著提升:在"拾取unseen玩具"和"杂乱场景拾取"中分别达65%和60% [28]
Should You Buy Nvidia Stock Before May 28? Wall Street Has a Crystal-Clear Answer for Investors.
The Motley Fool· 2025-05-25 16:15
股价表现与市场预期 - 英伟达股价在今年早些时候因投资者担忧关税和出口限制对收入的影响而大幅下跌 但在5月收复失地 主要因超大规模云公司上调资本支出预测以及特朗普政府撤销拜登时代的AI扩散规则[1] - 公司将于5月28日公布2026财年第一季度财报 历史数据显示财报后股价波动较大 例如上次财报后股价下跌超过8%[2] - 华尔街71位分析师给予"买入"评级 目标价中位数160美元 较当前131美元有22%上行空间[3] 核心业务与技术优势 - 专注于加速计算领域 结合专用硬件和软件加速数据中心复杂工作负载 尤其在AI领域 GPU市占率超90%[5] - 通过垂直整合战略提供完整数据中心解决方案 包括CPU 互连技术和网络设备 实现最低总拥有成本[6] - CUDA软件平台经过20年发展 包含数百个代码库和预训练模型 支持视频分析 语音识别等多领域AI应用开发[7] AI领域战略布局 - 生成式AI需求推动当前增长 同时布局自动驾驶汽车和自主机器人等下一代AI革命领域[8][9] - Drive和Isaac平台分别支持自动驾驶汽车和自主机器人开发 Waymo 特斯拉和亚马逊等头部企业均采用相关技术[10] - 最新发布GR00T N1.5人形机器人基础模型 并向Marvell等定制芯片厂商开放NVLink互连技术 创造新增长机会[11] 即将发布的财报预期 - 公司指引2026财年Q1收入增长53% 非GAAP盈利增长49% 但分析师因出口限制担忧将盈利增长预期下调至44%[12] - 期权市场定价显示财报后股价可能波动6个百分点 预计交易区间125-140美元 历史显示超预期未必带来股价上涨[13] - 财报电话会议将重点讨论中国市场出口限制 沙特阿拉伯市场交易进展以及特朗普政府半导体关税政策[14]
英伟达让机器人「做梦学习」,靠梦境实现真·从0泛化
量子位· 2025-05-21 18:39
核心观点 - 英伟达通过DreamGen项目实现机器人"梦境学习",利用AI视频世界模型生成神经轨迹,仅需少量现实视频即可让机器人学会22种新任务[2][6][7] - 该方法突破传统机器人依赖大规模人工数据的限制,实现从0开始的泛化能力,复杂任务成功率从21%提升至45.5%[7][23] - 技术被纳入GR00T-Dreams蓝图,将加速机器人开发周期(从3个月缩短至36小时)并推动物理AI发展[31][32] 技术原理 - **四步流程**: 1 微调模型捕捉机器人运动特征[17] 2 生成海量虚拟视频序列(含已知/未知行为)[18] 3 通过潜在动作模型解析伪动作序列[20] 4 用视频-动作序列训练视觉运动策略[22] - 首创机器人视频生成评估基准DreamGen Bench,量化指令遵循度与物理合理性[29] 性能突破 - 单一动作数据学习新动作成功率从11.2%提升至43.2%,全新环境成功率从0%达到28.5%[25] - 神经轨迹规模达人类演示数据的333倍,策略性能随数据量对数增长[26] - 在Franka、SO-100等真实机器人平台验证有效性,接触密集型任务表现显著增强[23][28] 战略布局 - GR00T-Dreams将整合DreamGen技术,通过合成运动数据压缩动作令牌[31] - GR00T N1.5作为首款可定制类人推理基础模型,计划年底部署于Jetson Thor芯片[32] - 公司构建从AI大脑到模拟世界的全栈机器人技术基础设施[34]