通用机器人
搜索文档
大模型之后看机器人?Sergey Levine谈通用机器人规模化落地的真实瓶颈与破局方案
锦秋集· 2025-09-15 20:37
核心观点 - 机器人技术将在2030年实现家庭全自主管理 核心驱动力是"机器人数据飞轮"机制 即通过真实任务反馈实现持续迭代和自我强化 [1] - 机器人落地速度可能超越自动驾驶和大型语言模型 因物理世界反馈明确、容错率高且数据获取更容易 [2] - 技术路径基于"视觉-语言-动作"一体化基础模型 依托现有AI底座(如Gemma语言模型)快速开发应用 [3][15] - 硬件成本从数十万美元降至数千美元 降低创业门槛并加速市场验证 [7][33] - 通用机器人实现需突破"三难困境":毫秒级反应速度、长上下文记忆和大模型规模 解决方案依赖云端与本地智能结合 [6][27][28][29] 技术架构与能力 - Physical Intelligence的π0模型采用端到端Transformer架构 整合视觉编码器、语言推理和动作专家 实现感知-思考-行动闭环 [16][17] - 动作控制采用流匹配和扩散技术 生成连续高频指令驱动关节运动 精度远超离散文本符号 [17] - 模型展现"组合泛化"能力:例如自主清理障碍物、扶正容器、翻正衣物等未训练过的行为 [23][24] - 预训练语言模型提供先验知识(如物体识别、空间关系) 加速物理技能学习过程 [17][18] 发展路径与时间线 - 优先小范围真实场景应用 而非大规模模拟 通过精准数据反馈提高资源效率 [4] - 垂直领域机器人服务预计1-2年内落地 通用家庭管家级机器人需约5年 [10][11] - 模拟环境需结合真实世界数据基础 仅作为"排练厅"用于技能排演和反事实思考 [30][31][32] - 数据飞轮启动后 机器人能力将呈指数级提升 从单一任务跃迁至通用家务处理 [1][5][10] 行业比较优势 - 对比语言模型:机器人错误结果明确(如叠坏衣服) 易获得有效负反馈 而语言模型错误难以察觉 [12] - 对比自动驾驶:机器人容错空间大(如打碎盘子可接受) 且受益于现代感知系统和常识推理能力 [13][14] - 具身智能赋予目标导向的视觉过滤能力 从海量视频数据中高效提取关键特征 避免信息过载 [19][20][21] 硬件与经济影响 - 硬件成本十年内从40万美元(PR2机器人)降至3000美元 AI闭环控制降低对机械精度的依赖 [33] - 机器人将放大体力劳动者生产力 类似编程助手对软件工程师的增效作用 [11][34] - 地缘政治挑战在于关键硬件供应链集中 但机器人产业具备"自举"特性:用机器人制造机器人可形成正反馈循环 [35] 生态与竞争维度 - 竞争焦点从纯技术转向产业链、生态链和人才链综合布局 [7] - 教育体系需培养持续学习能力 以适应自动化转型带来的社会变革 [34]
英伟达推出的“大脑”, 能让机器人变聪明吗?
第一财经· 2025-08-26 11:25
英伟达新一代机器人计算平台Jetson Thor上市 - 新一代机器人计算平台Jetson Thor开发套件和生产模块上市,采用Blackwell架构,与数据中心服务器和工作站的最新GPU架构统一 [2] - Jetson Thor在FP4精度下算力为2070TFLOPS,相比10年前的Jetson TK1平台FP32精度算力0.3TFLOPS提升显著,2022年Jetson Orin在INT8精度下算力为275TOPS [2] - Jetson系列AI性能10年提升7000倍,Jetson Thor的AI计算性能是Orin的7.5倍,能源效率是Orin的3.5倍 [3] 机器人算力需求与市场现状 - 人形机器人从业者反映机器人处于算力不足状态,运行大参数模型需要比Orin算力更大的芯片,算力足够大才能提升执行效率 [3] - 机器人技术不够收敛,厂商为实现更多功能需将更多算法塞进机器人,人形机器人属于给多少算力都不够的状况 [3] - 计算平台需运行推理式AI、生成式AI、大语言模型、视觉模型和行动模型,人形机器人搭载多个传感器需在数百毫秒内完成推理或思考几秒做感知规划 [4] - 许多人形机器人客户在一台机器上同时使用2个或以上Orin,汽车客户同时使用2个甚至4个Orin,算力提升后工作负载可在同一个Jetson Thor上运行 [4] - 机器人需要边缘端运算因云端计算有延迟,可能连接不到云无法做出实时决策 [4] Jetson平台开发者与客户基础 - Jetson平台有220万名开发者,7000多家公司使用Orin [5] - 中国公司包括智元机器人、众擎机器人、银河通用、优必选、宇树科技等已使用Orin并准备使用Thor [5] - Jetson Thor开发套件售价3499美元,生产模块Jetson T5000(2070TFLOPS)售价2999美元 [5] 英伟达机器人战略与竞争环境 - 物理AI和机器人领域有巨大机遇,通用机器人时代正在到来,生成式AI、推理式AI和模拟技术对通用机器人十分重要 [5] - 英伟达在三个层面思考机器人:机器人本身如人形机器人、机械臂,属于机器人范畴的自动驾驶汽车,大型建筑和空间如工厂、城市迈向机器人化 [5] - 英伟达为物理AI和机器人提供三种计算机:机器人"大脑"Jetson Thor用于部署AI,另外两台用于训练AI和提供测试AI的虚拟环境 [5] - 英伟达在机器人"大脑"领域面临竞争,特斯拉自研人形机器人计算机,另有面向扫地机器人、割草机器人等品类的芯片供应商 [6] - 机器人算力芯片朝增加算力方向增长,但长远无法断言算力芯片要多大才够用,未来算力可能收敛 [6] - 2024年全球人形机器人市场规模25.62亿元,2031年人形机器人行业进入快速起量期 [6]
助力机器人应用设计!英伟达(NVDA.US)推出新计算平台Jetson Thor
智通财经· 2025-08-26 10:24
产品发布与技术规格 - 公司正式推出专为机器人应用设计的计算平台Jetson Thor 同步推出开发者套件Jetson AGX Thor和量产模组Jetson T5000 [1] - Jetson AGX Thor开发者套件起售价为3499美元 [1] - 平台基于Blackwell架构打造 AI计算性能达前代Jetson Orin的7.5倍(提升6.5倍) CPU性能提升至3.1倍 内存容量增加1倍至128GB [1] 技术突破与应用场景 - 性能飞跃使机器人开发者能在边缘端处理高速传感器数据并执行视觉推理 突破动态真实环境运行限制 [1] - 平台专为生成式推理模型打造 支持大型transformer模型与视觉语言模型驱动的物理AI智能体在边缘端实时运行 减少云端依赖 [1] - 平台可同时运行多个生成式AI模型 具备无与伦比的性能与能效 [2] 行业影响与客户生态 - 平台旨在解决机器人领域实时运行多AI工作流的挑战 实现与人类及物理世界的智能交互 [2] - 超过200万开发者使用Jetson平台和机器人技术栈 覆盖制造 物流 医疗 农业等行业 [2] - Jetson Thor已获Agility Robotics Amazon Robotics Boston Dynamics Figure等行业领军企业采用 [2]
售价2万5!英伟达推出机器人“最强大脑”:AI算力飙升750%配128GB大内存,宇树已经用上了
量子位· 2025-08-26 07:05
产品发布与性能参数 - 英伟达推出全新机器人计算平台Jetson Thor 基于Blackwell GPU架构 AI算力达2070 TFLOPS 较上一代Jetson Orin提升7.5倍 能效提升3.5倍 [1] - 配备128GB LPDDR5X内存 显存带宽273GB/s 在边缘计算设备中属前所未有配置 [2][13] - 支持多实例GPU技术 最高配置2560核GPU及96个第五代Tensor Core 精简版T4000配置1536核GPU及64个Tensor Core [11][13] - 功耗范围40-130W 支持移动平台到固定式机器人的多样化热设计 [13] - 开发者套件美国售价3499美元 T5000模组批量采购单价2999美元 [8][9] 技术特性与创新 - 通过FP4量化和推测解码技术 部分模型性能可再提升2倍 [15] - 响应速度达200毫秒内生成首个token 每秒生成超25个token 支撑实时人机对话 [16] - 支持多路4K/8K视频编解码 最多4个25GbE网络接口 实现多传感器数据超低延迟直传GPU内存 [13][22] - 原生集成NVIDIA Isaac仿真开发平台 Isaac GR00T人形机器人基础模型 Metropolis视觉AI及Holoscan传感器工作流 [14] 生态系统与合作 - 全球首批集成企业包括联影医疗 万集科技 优必选 银河通用 宇树科技等中国公司 以及波士顿动力 Agility Robotics等国际企业 [19][20][21] - 研华科技 米文动力 天准科技等正开发量产级Jetson Thor系统 亚德诺半导体 e-con Systems等提供传感器支持 [18] - 宇树科技反馈平台带来计算能力飞跃 银河通用机器人运动速度和流畅性显著提升 [19] 战略意义与行业影响 - 被定位为"机器人大脑" 与训练AI的DGX系统 测试AI的Omniverse平台构成物理AI三大计算支柱 [23] - 推动物理AI与通用机器人时代到来 支持构建可与物理世界交互的机器人系统 [3][4] - 支持所有主流生成式AI框架 包括Qwen DeepSeek等语言模型及视觉语言动作模型 [6] - 采用持续循环的开发模式:训练-仿真-部署 即使机器人部署后仍持续升级能力 [24][25]
英伟达宣布Jetson Thor已发售,宇树科技、银河通用已接入
新浪科技· 2025-08-25 23:39
产品发布 - NVIDIA宣布Jetson AGX Thor开发者套件和量产级模组正式发售 这是新一代机器人计算机 旨在为制造 物流 交通 医疗 农业和零售等行业数百万台机器人提供算力支持[2] - 产品基于NVIDIA Blackwell GPU并配备128GB内存 提供高达2070 FP4 TFLOPS的AI算力 可在130瓦功率范围内运行最新AI模型[2] 性能参数 - 与上一代产品NVIDIA Jetson AGX Orin相比 Jetson Thor的AI计算性能提高至7.5倍 能效提高至3.5倍[3] - 产品能够同时运行多个生成式AI模型 包括视觉语言动作模型和主流大语言模型及视觉语言模型[3] 应用领域 - 联影医疗 万集科技 优必选 银河通用 宇树科技 众擎机器人和智元机器人等行业公司已率先使用Jetson Thor[2] - 产品专为全球数百万开发者打造 用于构建可与物理世界交互甚至改变物理世界的机器人系统[2]
英伟达推出的“大脑”, 能让机器人变聪明吗?
第一财经· 2025-08-25 23:36
产品发布与性能提升 - 英伟达新一代机器人计算平台Jetson Thor开发套件和生产模块上市,算力大幅提升 [1] - Jetson Thor在FP4精度下算力达2070 TFLOPS,较2014年Jetson TK1的0.3 TFLOPS(FP32精度)提升7000倍 [3] - 相较2022年Jetson Orin的275 TOPS(INT8精度),Jetson Thor的AI计算性能提升7.5倍,能源效率提升3.5倍 [3] - 平台采用Blackwell架构,与数据中心服务器及工作站GPU架构统一 [3] 市场需求与技术挑战 - 人形机器人行业面临算力不足问题,需更大算力芯片支持大参数模型运行 [4] - 机器人需搭载多传感器(头部/胸部/腿部摄像头、声波雷达),需在数百毫秒内完成推理或数秒内完成感知规划 [4] - 现有客户(包括人形机器人和汽车领域)需同时使用2-4个Jetson Orin芯片,Jetson Thor可整合工作负载 [5] - 边缘计算需求源于云端延迟和连接不稳定问题,实时决策要求本地算力支持 [5] 生态布局与客户覆盖 - Jetson平台拥有220万名开发者和7000多家公司使用Orin芯片 [6] - 中国客户包括智元机器人、众擎机器人、银河通用、优必选、宇树科技等,已使用Orin并计划升级至Thor [6] - 产品定价:开发套件3499美元,生产模块Jetson T5000(2070 TFLOPS)售价2999美元 [6] 行业前景与竞争环境 - 通用机器人时代到来,依赖生成式AI、推理式AI及模拟技术两大核心 [6] - 英伟达机器人战略覆盖三层面:机器人本体(人形机器人/机械臂)、自动驾驶汽车、机器人化大型空间(工厂/城市) [6] - 面临特斯拉自研计算机及其他品类(扫地/割草机器人)芯片供应商竞争 [7] - 2024年全球人形机器人市场规模25.62亿元,预计2031年进入快速起量期 [7]
NVIDIA Blackwell 驱动的 Jetson Thor 现已推出,帮助加速通用机器人时代的发展进程
Globenewswire· 2025-08-25 23:00
产品发布与定位 - NVIDIA正式推出Jetson AGX Thor开发者套件和产品组模组 以及专为机器人设计的新型计算机 目标行业包括制造 物流 交通运输 医疗健康 农业和零售 [2][8] - 新产品由NVIDIA Blackwell GPU提供支持 搭载128GB显存 提供高达2,070 FP4 teraflops的AI算力 最大功率不超过130瓦 [2] - 早期采用者包括AgiBot Engine AI 银河通用 UBTECH United Imaging 宇树和Vanjee等行业领导者 [2][4][8] 性能与技术优势 - 相比前代Jetson AGX Orin Jetson Thor的AI算力提升7.5倍 能效提高3.5倍 可运行任何生成式AI模型包括视觉语言行为模型和大语言模型 [3][8] - 系统模组解决机器人开发中运行多AI工作流的挑战 实现机器人与人类及物理世界的实时智能交互 并解锁对高性能物理AI应用至关重要的实时推理 [3][8] - 平台支持全栈NVIDIA Jetson软件 兼容任何热门AI框架和生成式AI模型 并完全兼容来自云边缘的NVIDIA软件栈包括Isaac GR00T Metropolis和Holoscan [4] 生态系统与行业应用 - NVIDIA Jetson平台自2014年推出以来已吸引超过200万名开发者 以及150多家硬件系统 软件和传感器合作伙伴构成的生态系统 Jetson Orin正帮助7000多名客户使用边缘AI [4] - 宇树采用Jetson Thor提升机器人敏捷性 决策速度和自主能力 银河通用通过Jetson Thor使其G1 Premium在速度和流畅性方面取得显著提升 [4] - 产品推动视觉AI智能体和复杂机器人系统如人形机器人及手术机器人的前沿发展 [4] 产品上市与定价 - Jetson AGX Thor开发者套件起售价为3,499美元 Jetson T5000产品级模组通过全球分销合作伙伴发售 生产系统和载板可向嵌入式合作伙伴购买 [5]
大豪科技(603025.SH):暂无通用机器人相关业务布局
格隆汇· 2025-08-21 15:46
核心业务定位 - 公司核心聚焦于为纺织机械行业提供定制化自动化控制产品与服务 [1] - 目前暂无通用机器人相关业务布局 [1] 产品技术特点 - 研发自动换旋梭系统装置 核心为机械臂 [1] - 装置主要应用于纺织服装生产场景中旋梭的自动化更换作业 [1] - 相较于通用型机器人 该机械臂是针对纺织生产特定场景开发的专用自动化设备 [1] - 设备更贴合纺织行业生产工艺特点与实际操作需求 [1] 应用效益 - 有效替代传统人工换旋梭的低效作业模式 [1] - 显著提升生产效率 [1] - 降低人工劳动强度 [1] 技术积累体现 - 体现了公司在工业控制领域持续深耕的技术积累 [1] - 体现了公司在行业自动化解决方案上的技术积累 [1]
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
自动驾驶之心· 2025-08-17 11:23
核心观点 - PI0-FAST-DROID是一种通用机器人策略模型,能够在复杂真实场景中执行多样化任务,展现出强大的视觉-语言理解能力和适应性 [4][13][16] - 模型在透明物体识别、铰接物体操作等任务中表现优异,但存在空间推理不足、动作冻结等局限性 [20][48][39] - 通过300多次试验验证,模型平均任务完成度为42%,对提示工程和摄像头角度高度敏感 [77][12][61] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素) [19] - 基于FAST+动作标记器,预训练数据包含100万条真实机器人轨迹,在DROID数据集上微调 [79] - 硬件配置:Franka Panda机械臂+Robotiq夹持器,ZED 2立体相机+ZED Mini腕部摄像头 [79] 性能表现 优势领域 - 透明物体操作:成功抓取透明瓶子并完成放置任务,无需特殊重建技术 [20] - 复杂背景识别:在彩色棋盘背景中准确定位黄色鱼形物体 [21] - 人体干扰鲁棒性:侧视摄像头捕捉移动人体时仍能专注任务 [25] 主要局限 - 空间推理缺陷:无法精确判断容器高度导致放置失败率高达50% [48][50] - 动作冻结:30%试验因语义模糊或解码错误导致任务中断 [39][43] - 触觉反馈缺失:对精细物体施力不当,塑料瓶抓取失败率63% [58] 任务分类表现 - 拾取放置:平均完成度53.5%,透明物体成功率76% [82][20] - 铰接物体:抽屉操作成功率63%,但咖啡机操作仅8%进度 [91][111] - 人机交互:物体传递成功率62.5%,但握手任务完全失败 [109][115] - 织物处理:T恤折叠进度35%,报纸折叠成功率62% [99][107] 影响因素 - 提示工程:指令措辞变化可使成功率从0%提升至100% [61] - 摄像头依赖:腕部摄像头遮挡直接导致0%成功率 [67] - 数据偏差:无指令时默认抓取出现频率16.67%的记号笔 [63] 行业意义 - 首次实现开箱即用的跨场景策略部署,突破传统策略环境适应性瓶颈 [4][77] - 验证了视觉语言模型在具身智能领域的迁移潜力,为通用机器人开发提供新范式 [19][28] - 当前20-50%的任务成功率虽不足,但标志机器人技术从专用系统向通用系统的范式转变 [77]
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
具身智能之心· 2025-08-17 00:03
核心观点 - PI0-FAST-DROID是一种基于视觉语言模型的通用机器人策略,能够在复杂真实场景中处理新物体、新位置和新任务,展现出开箱即用的潜力,但性能受提示工程、摄像头视角和任务复杂度影响显著 [4][7][73] - 该策略在透明物体识别、部分遮挡鲁棒性和人类活动干扰处理方面表现突出,但在空间推理、多步骤任务协调和精细操作方面存在明显局限性 [18][24][46] - 通过300多次试验评估,平均任务完成进度为42%,成功率在简单任务中可达20-50%,标志着机器人通用化的重要进展,但距实际应用仍有差距 [73][75][78] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素)处理透明、伪装及未见物体 [18][19][26] - 使用FAST动作标记器,基于100万条真实机器人动作轨迹训练,支持跨本体泛化 [75] - 训练数据结合π跨本体数据集和Open X-Embodiment预训练,并在DROID数据集上微调 [75] 能力表现 - 透明物体操作:能稳定抓取透明瓶子并完成放入容器的精准操作,无需传统二维或三维重建技术 [19][26] - 复杂背景识别:在色彩鲜艳棋盘背景中成功识别并抓取形状奇特的"黄色鱼"物体 [20] - 人类活动鲁棒性:侧视摄像头捕捉到移动人类时仍能专注任务执行,因V骨干训练包含人类图像且策略优先腕部摄像头 [24][25] 失败案例与局限性 - 提前停止问题:因语义模糊性或动作解码错误,300步试验中常意外停止,需人工干预 [36][41][43] - 空间推理缺陷:缺乏精确距离度量能力,导致物体放入容器时高度不足或发生碰撞 [46][48] - 多步骤任务困难:无记忆机制导致铰接物体操作(如打开抽屉)时抓住把手后冻结 [40][46] - 提示工程敏感:同一任务在不同措辞下成功率波动极大,如"关上厕所"成功率0% vs "关闭马桶白色盖子"成功率100% [57][58] 任务类别性能 - 拾取放置:依赖腕部摄像头,遮挡时成功率降至0% [63][66] - 倾倒任务:空容器操作进度73.3%,真实液体倾倒进度仅20% [85][86] - 铰接物体:平均进度37.8%,成功率28.5%,抽屉操作进度63-75% [87][92] - 织物操作:平均进度47%,折叠T恤进度35%,但完成折叠任务进度0% [93][100] - YCB基准:进度53.5%,成功率24%,无法跟随品牌名称仅能识别颜色 [95][96][101] - 人机交互:进度53.5%,成功率24%,握手任务进度0% [102][108] - 咖啡机操作:进度仅8%,无法完成放入胶囊或按下按钮等复杂操作 [104][109] 硬件与部署 - 使用Franka Panda机器人(7自由度)配Robotiq 2F-85夹持器,侧视与腕部ZED相机纯RGB输入 [5][75] - 推理需NVIDIA RTX A6000(48GB VRAM),部署便捷性类似开源LLM,支持快速实验室验证 [10][75]