Workflow
Grasp
icon
搜索文档
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型~
自动驾驶之心· 2025-07-08 21:13
核心观点 - 大型视觉-语言-动作模型在机器人任务中展现出强大泛化能力,但受限于数据收集难度,主要集中在控制简单夹持器末端执行器上 [3] - DexVLG是一个大型视觉-语言-抓取模型,能够根据语言指令通过单视角RGBD输入预测灵巧抓取姿态 [3] - 公司开发了包含1.7亿个灵巧抓取姿态的DexGraspNet 3.0数据集,涉及174,000个模拟目标,配有详细part级描述 [3][9] - DexVLG在模拟中实现超过76%的零样本执行成功率,在真实世界场景中成功实现与部分对齐的抓取 [3][7] 领域介绍 - 大型VLA模型通常具有十亿级参数,并在十亿级机器人数据集上训练,但当前仅限于平行夹持器控制 [4] - 缺乏灵巧抓取数据是主要限制因素,现有数据收集方法需要大量人力或缺乏语义感知 [4] - 功能性灵巧抓取研究受限于小规模数据集,限制了模型容量和泛化能力 [4] 数据集构建 - DexGraspNet 3.0是目前最大的灵巧抓取数据集,包含1.7亿个抓取姿态和174k个object [9][10] - 数据来源于Objaverse数据集,使用GPT-4o进行过滤和处理,生成229K个有效object [11] - 使用SAMesh进行零样本几何部分分割,GPT-4o自动标记部分名称 [11] - 每个抓取姿态都经过基于物理的模拟器IsaacGym验证,并配有语义标题和部分级注释 [9] 模型架构 - DexVLG以单视角点云和语言指令为输入,输出符合指令的抓取姿态 [24] - 采用预训练的Uni3D骨干网络作为点云编码器,参数规模从2300万到3.07亿不等 [25][26] - 使用Florence-2的LLM基础模型处理语言输入,参数规模从2.32亿到7.71亿 [27] - 基于流匹配的姿态去噪模块生成灵巧抓取姿态,与LLM共享Transformer架构 [28] 实验结果 - DexVLG在模拟中实现76.1%的抓取成功率,48.1%的部分抓取精度 [31] - 相比基线模型DGN2.0*+CLIP的68.2%成功率有显著提升 [31] - 模型展示了强大的零样本泛化能力,在真实世界场景中成功执行 [7]
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型
具身智能之心· 2025-07-07 17:20
核心观点 - 大型视觉-语言-抓取模型DexVLG能够根据语言指令和单视角RGBD输入预测灵巧抓取姿态,并在模拟和真实世界中表现出强大的零样本泛化能力,抓取成功率超过76% [4][8] - DexGraspNet 3 0数据集包含1 7亿个灵巧抓取姿态和174k个模拟目标,是目前最大的部分感知功能性灵巧抓取数据集 [4][10] - 该研究通过结合多个预训练基础模型和基于流匹配的去噪范式,构建了参数规模达数十亿的DexVLG模型 [8][23] 领域介绍 - 当前大型视觉-语言-动作模型主要局限于平行夹持器控制,缺乏灵巧手控制能力,主要原因是灵巧抓取数据不足 [5] - 现有灵巧抓取数据集要么规模有限,要么缺乏语义感知,无法支持功能性抓取任务 [5] - 该领域需要大规模、部分感知的数据集来提升模型容量和泛化能力 [5] 数据集构建 - DexGraspNet 3 0数据集包含来自Objaverse的174k个目标上的1 7亿个灵巧抓取姿态,每个姿态都经过物理模拟验证并配有语义标题 [10][12] - 使用SAMesh进行零样本几何部分分割,GPT-4o进行部分名称标记,确保数据集具有丰富的语义信息 [12] - 数据集构建采用部分感知的手姿态初始化策略和多个能量函数优化,确保抓取姿态的语义合理性 [13][15][17][18][19] 模型架构 - DexVLG采用预训练的Uni3D点云编码器和Florence-2语言基础模型,参数规模从2 32亿到7 71亿不等 [26][28] - 模型使用基于流匹配的去噪范式生成抓取姿态,通过最小化均方目标函数进行训练 [29] - 点云特征与语言embedding向量拼接后输入大型语言模型,与姿态预测头共享交叉注意力机制 [28] 实验结果 - 在模拟环境中,DexVLG实现了76 1%的抓取成功率和48 1%的部分抓取精度,显著优于基线模型 [32] - 模型展示了强大的零样本泛化能力,能够处理多种物体和语义部分的抓取任务 [30] - 真实世界实验验证了模型预测的抓取姿态与语言指令的良好对齐性 [8]
银河通用官宣完成11亿元融资 “宁王”加码机器人生态
经济观察网· 2025-07-06 12:07
融资情况 - 宁德时代及旗下溥泉资本领投 国家开发银行旗下国开科创等跟投 完成对银河通用的11亿元投资 创具身大模型机器人领域最大单笔融资纪录 [1] - 银河通用两年累计融资超24亿元 成为该领域累计融资额最高企业 此前在2024年6月和11月分别完成7亿元天使轮和5亿元战略轮融资 [1] - 公司估值已超10亿美元 成为具身机器人领域"独角兽" 同赛道超10亿美元估值企业还包括宇树科技、智元机器人等 [3] 技术突破 - 首款产品Galbot G1仅借助合成数据训练即实现95%高成功率抓取各类材质物体 应用于工业、商业及家庭场景 [1] - 推出全球首个基于十亿级仿真合成动作数据预训练的端到端具身大模型GraspVLA 实现零样本泛化能力突破 [2] - 发布全球首个人形机器人智慧零售解决方案 轮式双臂机器人可执行5000种商品的全流程自动化操作 新门店部署仅需1天 [2] 商业化进展 - 在北京已开设7家无人药店并实现机器人常态化运营 机器人可24小时执行捡药、对接骑手等任务 计划年内在北上深新增100家门店 [2] - 宁德时代投资被分析认为包含产品合作与产业布局考量 不排除未来布局机器人产线的可能性 [3] - 宁德时代通过柏睿资本连续投资千寻智能、维他动力等具身机器人企业 并与富临精工签署智能机器人零部件合作协议 [3] 行业背景 - 锂电技术进步推动能量密度与安全性提升 为人形机器人应用提供支持 全固态电池或成未来智能设备核心技术 [4]
机器人操作大模型的技术发展与未来前景
机器人圈· 2025-07-04 18:41
机器人操作技术的演进 - 从1960年代核电站的机械臂到现代通用型机器人,技术经历了从"机械执行"到"认知决策"的范式转变 [4] - RT-1模型崛起标志通用型革命开端,同一机器人可执行多任务,如泡咖啡和修电脑 [5] - GraspNet-1Billion通过百万级物体姿态训练赋予机器"视觉直觉",但数据依赖可能放大社会不平等 [5] 感官革命与技术突破 - 视触觉指尖技术达到0.1mm精度,灵敏度超越人手10倍,可识别织物纹理和草莓成熟度 [6] - MIT柔性皮肤检测0.1N压力变化,手术机器人可感知血管壁弹性避免损伤 [7] - RT-2语言驱动将"小心易碎品"转化为牛顿力控制,ULIP-2建立"概念-形状-触感"跨模态关联 [7] 前沿技术与产业应用 - Meta触觉手套每平方厘米40个触觉单元,可辨别面料舒适度开启个性化消费新纪元 [8] - Google RT-X计划跨品牌经验共享提升新任务学习速度300%,成功率提升50% [8] - 斯坦福柔性抓手模仿章鱼触手,可变刚度结构(0.5-50N/mm)兼顾鸡蛋抓取与瓶盖开启 [8] 技术融合与系统架构 - AnyGrasp系统实现92%准确率和200ms识别速度,通过点云特征提取建立物体"指纹库" [9] - PointNetGPD通过10万次抓取演示训练实现决策层从规则驱动到数据驱动的转变 [9] - 执行层可变刚度软体手结合形状记忆合金,使易碎品抓取成功率高达98% [9] 未来发展方向 - Google PaLM-E模型实现视觉问答89%准确率和多任务操作76%成功率 [10] - NVIDIA Isaac Sim模拟2000种材质使真实场景适应时间缩短60% [10] - 医疗咽拭子机器人达±0.1mm精度,制造柔性三指手iPhone装配良率99.8% [10] 前沿探索与挑战 - 神经形态触觉传感器响应速度快100倍,模拟皮肤表皮/真皮结构 [11] - 群体机器人协作仿生算法使100台AGV协同效率提升300% [11] - 技术需与脑机接口、量子计算融合,但需建立全球伦理框架防止滥用 [11]
银河通用创始人王鹤勾勒人形机器人产业新图景,合成数据破局具身智能落地
新浪证券· 2025-06-28 17:03
行业动态 - "具赋新能 智驱未来"青年科学家成果转化暨具身智能高质量发展研修会在上海智能工业中心开幕,百余位全球青年科学家与逾130位上市公司企业家参会 [1] - 具身智能作为让机器人具备理解物理世界并与之交互能力的尖端领域,近年来风头正劲,尤其在多模态大模型加持下,"端到端"的技术路线被视为通向"通用"的曙光 [3] - 具身智能的任务范畴比自动驾驶更广、所需数据量级更大、技术复杂度更高,但"端到端"之路依然值得坚持 [3] 技术突破 - 银河通用通过构建庞大的仿真合成数据集,生成海量虚拟操作轨迹与标签,攻克"仿真-真实"差距难题,打造出基于合成大数据预训练的端到端具身大模型 [5] - "GraspVLA"模型是全球首个完全依靠合成数据(10亿帧)预训练的视觉-语言-动作(VLA)大模型,在仿真环境中模拟了桌面场景下对近百万种物体的抓取 [7] - 模型能在完全未见过的真实环境与物体中仅凭语言指令就完成精准抓取,具备闭环实时动态调整能力和强抗干扰性 [7] - 合成数据方案带来革命性效率提升:仅需每人约2小时采集的200条真实数据微调,模型即可精确理解人类意图,并能零样本泛化到同类新物品 [9][10] 商业化应用 - 银河通用落地全球首个人形机器人智慧零售解决方案,由具身大模型机器人Galbot在实体门店中执行取货、送货、打包、库存管理等无人值守工作 [14] - 新门店部署仅需两天,无需数据采集,北京已有10家类似药店成功运行,并获100家药店订单,计划在北上广深快速部署至百家 [15] - 饮品店、咖啡店已投入运营,单日约400多单,失败率控制在极低的单日≤1单 [15] - 工业领域应用包括:国际车厂北京工厂的复杂零部件分拣任务,处理3x3x3复杂垛型的料箱搬运工作 [15] 数据挑战 - 全球最大具身智能数据集仅达百万条级别,与自动驾驶的单日数据量(头部车企单日可回流高达1亿条片段)相比相差数个量级 [4] - 人形机器人公司今年量产目标仅定在"超过1000台",离"一万台"仍有距离,与汽车百万级保有量相差两个数量级 [4] - 机器人的自由度(单臂6-7个,全身50-100个)远超汽车,意味着对数据的需求成倍增长,采集成本高昂(单人单日约采1000条) [4]
海淀这家机器人公司,融资创纪录!
搜狐财经· 2025-06-25 20:00
6月23日,海淀企业北京银河通用机器人有限公司(以下简称"银河通用")宣布正式完成11亿元人民币的新一轮融资。据第三方机构统计,这是迄今为止 国内具身智能领域单笔最大融资。 据了解,银河通用成立于2023年5月,专注于研发人形机器人硬件和具身智能大模型。创始人王鹤担任北京大学计算机学院前沿计算研究中心助理教授、 博士生导师。银河通用刚刚成立,便迅速完成了种子轮融资,此前2024年6月和11月,银河通用曾分别宣布超7亿元的天使轮融资和5亿元战略轮融资。 编辑:罗雨涵 就在本月17号,银河通用与博世集团旗下市场化投资平台博原资本联合宣布成立合资公司"博银合创",共同推动具身智能机器人在工业领域的商业化探 索,并进一步推动全球布局。据悉,合资公司将专注于复杂装配核心制造场景,推进具身智能在工业等场景的规模化落地。这一合作正值全球制造业加速 迈向智能化的关键时期,是具身智能技术从技术验证走向产业落地的重要里程碑。 今年以来,海淀区实施多项政策推动具身智能机器人产业发展。记者从中关村科学城管委会获悉,海淀区内已集聚具身智能企业200余家、人形机器人整 机企业24家,拥有一批国内外知名专家和学者。 记者:王萌 今年1月, ...
专访银河通用王鹤:真正能「干活」的机器人,不怕价格战丨涌现36人
36氪· 2025-06-24 18:23
以下文章来源于智能涌现 ,作者王方玉 通用具身大模型是人类前沿技术的"无人区",背负这一宏大命题的王鹤,谈起具身模型当下的发展,却是出人意料的"保守"和务实: "我特别不建议去讲具身的AGI,很多公司都希望一步实现具身的AGI,这一点我不认同。" 智能涌现 . 直击AI新时代下涌现的产业革命。36氪旗下账号。 "迎宾表市场是昙花一现, 要训练机器人做高价值工作。" 文 | 王方玉 编辑 | 苏建勋 来源| 智能涌现(ID:AIEmergence) 封面来源 | 企业官方 "除了跳跳舞、翻翻跟头,人形机器人还能干什么?" 北京大学助理教授、银河通用机器人创始人及CTO王鹤可能是最有资格回答朱啸虎上述"灵魂拷问"的人。由他创立的银河通用是国内具身智能赛道的独角 兽,也是行业第一梯队中最专注机器人"脑"的一家。 自2023年5月成立至今,银河通用只发布过一款机器人本体产品Galbot(G1),却发布了多款具身大模型。公司将大部分资源和资金投向了具身大模型研 发,致力于提升机器人的通用性和泛化性。 在王鹤博士看来,人形机器人卷本体的结果是把机器人卖出钢铁原材料的价格,目前市场上已经出现了价格战的苗头;只有具身智能模型 ...
加速具身智能产业化突破,海淀这家企业融资11亿元
北京日报客户端· 2025-06-24 12:59
融资情况 - 银河通用完成由宁德时代及溥泉资本领投的11亿元人民币新一轮融资 两年累计融资超24亿元 [1] - 本轮融资汇聚宁德时代上市公司战投 溥泉资本 国家开发银行国开科创 北京机器人产业基金 纪源资本等投资方 [1] 技术突破 - 公司采用仿真合成动作数据集预训练+真实数据后训练的技术范式 推动具身大模型技术快速迭代 [1] - 2024年1月推出全球首个基于十亿级仿真合成动作数据预训练的端到端具身大模型GraspVLA 实现全球首个仅靠预训练即可零样本(Zero-Shot)泛化能力 [1] - 相继推出全球首款面向零售商业化的端到端模型 产品级导航大模型等 [1] 商业化进展 - 智慧零售领域:2024年3月发布全球首个人形机器人智慧零售解决方案 轮式双臂机器人Galbot可在50平方米无人店铺内执行5000种商品的全流程自动化操作 单个新门店部署仅需1天 [2] - 北京已有近十家店实现部署和常态化运营 年内有望在全国百家门店投入使用 [2] - 工业领域:与博世集团旗下博原资本成立合资公司 签署三方战略备忘录 聚焦工业制造场景推动具身智能机器人商业化 [2] 行业地位 - 国家级投资平台+北京市投资平台+国际知名投资机构的引入 凸显公司在具身大模型机器人领域的技术领先性 [3] - 宁德时代作为战略投资人加入 有望为公司具身智能大模型应用推广打开新空间 [3] 公司背景 - 2023年5月在海淀成立 创始人兼首席技术官为北京大学助理教授 智源学者王鹤 [1][2] - 核心目标是坚定不移实现具身智能产业化突破 [2]
宁王领投,银河通用完成 11 亿融资,刷新今年国内具身智能单笔最高融资纪录
搜狐财经· 2025-06-23 23:41
融资情况 - 银河通用完成由宁德时代领投的11亿元人民币新一轮融资,投资方包括宁德时代上市公司战投、溥泉资本、国家开发银行国开科创、北京机器人产业基金、纪源资本等顶级机构 [2] - 过去两年累计融资超过24亿元,包括2024年6月7亿元天使轮融资(美团战投、北汽产投、商汤国香基金等参与)、2024年11月5亿元战略轮融资(上汽恒旭、深创投等追加投资)、2023年6月种子轮融资(经纬创投和蓝驰创投参与) [3] 产品与技术 - 专注于具身多模态大模型通用机器人研发,2024年6月发布首代具身大模型机器人Galbot(G1)及抓取、零售、导航端到端大模型GraspVLA、GroceryVLA、TrackVLA [5] - GraspVLA为全球首个全面泛化的端到端具身抓取基础大模型,实现零样本泛化能力 [5] - GroceryVLA解决复杂零售环境中智能抓取难题,支持全品类商品无需单独调参 [5] - TrackVLA实现纯视觉环境感知与自然语言指令理解,具备高动态目标跟随能力和环境高鲁棒性 [7] 商业化进展 - 智慧零售场景:Galbot机器人已在北京近十家无人店铺部署,支持5000种商品、6000个货道、10000多盒商品的自动化全流程运营,单店部署仅需1天,年内计划扩展至全国百家门店 [7] - 工业领域:与博世集团成立合资公司「博银合创」,聚焦复杂装配等高精度制造场景,推动具身人工智能规模化落地 [8][10] 战略合作 - 宁德时代作为产业战略领投方,将深化产业协同,助力银河通用技术在工业领域落地 [2] - 与博世中国、博原资本签署三方战略备忘录,加速全球智能制造布局 [8][10]
两年融资超24亿破行业纪录,清华学子创立的机器人公司凭啥
南方都市报· 2025-06-23 23:23
融资情况 - 公司于2024年6月完成11亿元人民币新一轮融资,由宁德时代及溥泉资本领投,创下具身智能领域单笔融资金额新高[2] - 天使轮融资曾以7亿元打破业内纪录,成立两年累计融资超24亿元[2][3] - 投资方包括宁德时代、溥泉资本、国家开发银行国开科创、北京机器人产业基金、纪源资本等战略及财务机构[2][3] 创始人及技术背景 - 创始人王鹤为清华大学电子系本科、斯坦福大学博士,现任北京大学助理教授,发表50多篇AI顶会论文[3] - 创立北京大学具身感知与交互实验室(EPIC Lab),研究方向覆盖多模态、具身大模型、自动驾驶等前沿领域[3] 技术研发与创新 - 推出全球首个基于十亿级仿真合成数据预训练的端到端具身大模型GraspVLA,实现零样本泛化能力[6] - 合成数据使用比例超过英伟达,自研数千万级场景数据及数十亿级抓取/导航数据[6] - 发布全球首款零售商业化模型GroceryVLA,可精准抓取全品类商品并具备自主决策能力[7] - 开发导航大模型TrackVLA,支持复杂场景零样本泛化及动态目标追踪[7] 商业化落地进展 - 智慧零售领域:全球首个人形机器人零售方案已在北京近十家店常态化运营,单个门店部署仅需1天,年底计划扩展至100家店[8][9] - 与美团合作智慧药房解决方案,实现24小时无人值守[9] - 成立康养机器人子公司,进军万亿银发经济市场[9] - 工业领域与奔驰、极氪等车企合作,机器人可执行天窗转运等任务,并与博世成立合资公司拓展全球市场[10] 市场战略与收入预期 - 产品定价数十万元/台,可替代客户三年人力成本,2024年预期收入达数亿元[10] - 聚焦高价值可批量复制场景,PMF逻辑为"节省人类劳动力"[10]