Workflow
具身智能之心
icon
搜索文档
突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控
具身智能之心· 2025-12-26 08:55
研究背景与核心问题 - 现有视觉-语言-动作模型依赖2D视觉输入制定策略,但在真实3D物理环境中执行任务时,感知与行动存在割裂,导致机器人空间定位精度低、任务通用性差,难以适应复杂现实场景[3] - 核心难题在于如何让机器人像人类一样,从2D视觉信息中精准推断3D空间关系,解决“2D感知与3D动作脱节”的问题[3] 解决方案与核心洞察 - 研究团队提出一种全新的空间感知VLA预训练范式,通过人类演示视频的视觉-物理对齐,让模型在学习机器人策略前就掌握3D空间理解能力[4] - 核心洞察是不纠结于人类与机器人的“身体差异”,而是提取人类动作中不变的3D空间逻辑,这些空间先验知识可以跨载体迁移到机器人身上[7] 关键数据集:Hand3D - 构建了Hand3D数据集,分为Hand3D-visual和Hand3D-action两部分,作为机器人的“3D空间教科书”[8] - Hand3D-visual包含约30万条指令-答案对,通过点云估计、物体定位和手部姿态标注,将2D视觉观测与3D物理空间关联[9][10] - Hand3D-action包含103万条视频-指令-运动三元组,从人类视频中提取手腕的3D轨迹并离散化为“运动令牌”,提供细粒度的3D动作监督[14] - 该数据集无需依赖昂贵3D扫描设备,大幅降低了3D空间监督数据的获取成本[14] 模型架构:VIPA-VLA - 设计了VIPA-VLA双编码器架构,核心是将语义视觉特征与3D空间特征深度融合[15] - 语义视觉编码器基于预训练的视觉-语言模型,负责提取图像高层语义特征;3D视觉编码器采用Cut3R模型,从单张2D图像中估计密集点云,输出几何信息[23] - 通过基于交叉注意力的融合层结合两种特征,并利用残差连接得到最终融合特征,既能保留语义理解能力,又能注入3D空间信息[17] - 在动作建模方面,将3D动作轨迹转化为运动令牌序列,并引入扩散Transformer作为动作头,生成可执行的动作块[18] 训练流程 - 训练分为三个阶段:3D视觉预训练、3D动作预训练、后训练适配机器人任务[21] - 阶段1冻结所有预训练参数,仅训练融合层,利用Hand3D-visual的VQA数据,让模型学习从2D语义和3D空间特征中推理3D关系[22] - 阶段2冻结语义和3D编码器,扩展LLM词汇表以包含运动令牌,并用Hand3D-action数据训练LLM,预测3D运动令牌序列[23] - 阶段3添加DiT动作头,冻结视觉和3D编码器,仅训练LLM骨干和动作头,使用机器人任务数据适配具体任务[24] 实验结果 - 在LIBERO基准的单视图输入设置下,VIPA-VLA的平均成功率达到92.4%,超过GR00T N1.5和4D-VLA等基线;在双视图设置下,平均成功率高达96.8%[28] - 在LIBERO的长序列任务中,VIPA-VLA的成功率达到85.6%,显著高于专门优化空间推理的SpatialVLA[29] - 在更具挑战性的RoboCasa基准上,仅用每个任务50条人类演示数据训练,VIPA-VLA的平均成功率达到45.8%,超越GR00T N1和π0.5,在“门/抽屉”类别中成功率高达67.7%[30] - 在真实机器人任务中,Wipe-Board任务的整体成功率达到60%,子任务成功率83%,远超GR00T N1.5和InternVL3.5;Water-Plant任务的整体成功率50%,子任务成功率57%,同样大幅领先基线[31] - 在unseen环境中,VIPA-VLA的Wipe-Board任务整体成功率仍有50%,而其他模型的成功率普遍降至10%左右,证明其学到的3D空间逻辑具有极强的迁移能力[31] - 在空间理解专项测试中,VIPA-VLA的距离预测误差仅为0.12米,方向预测准确率达到1.82/3,显著优于未经过空间预训练的InternVL3.5[35] 消融实验与关键贡献 - 移除“空间感知预训练”导致模型平均成功率下降1.2%[43] - 移除“双编码器架构”导致平均成功率下降3.7%[43] - 仅移除“融合层”导致平均成功率下降2.0%[43] - 结果表明,空间感知预训练和双编码器架构是VIPA-VLA性能提升的核心,两者相辅相成共同解决了2D-3D对齐问题[39] 研究意义与未来方向 - 该研究为机器人学习提供了一种新范式:不依赖昂贵的机器人数据,而是利用海量、易获取的人类演示视频,让模型提前掌握3D空间理解能力,再适配具体的机器人任务[40] - 该范式降低了机器人学习的数据源成本,并大幅提升了模型的泛化性[40] - 技术可直接用于家庭服务机器人、工业机械臂、医疗机器人等领域,让机器人在复杂、动态的真实环境中更精准地执行任务[40] - 未来计划将这种预训练范式与机器人数据预训练相结合,并扩展Hand3D数据集的场景覆盖范围[40]
从千亿到 25 万亿,具身市场迈入新量级
具身智能之心· 2025-12-25 17:30
具身智能市场前景与规模预测 - 摩根士丹利预计,到2050年,具身智能板块全球市场规模将达到25万亿美元[1] - 作为对比,2025年该市场规模预计约为1000亿美元,这意味着未来25年市场将增长250倍[1] - 在2050年的细分市场中,人形机器人预计规模最大,达7.5万亿美元,其次是无人驾驶汽车(5.6万亿美元)、服务机器人(5万亿美元)、飞行器无人机(4.7万亿美元)及其他非人形机器人(2.2万亿美元)[2] - 预计到2026年,具身智能板块全球市场规模将持续扩大,投资前景可观[2] 具身智能之心知识星球社区介绍 - 该社区定位为国内首个具身全栈社区,旨在提供技术交流平台,讨论学术与工程问题[14] - 社区成员背景多元,来自斯坦福大学、加州大学、清华大学、上海交大等国内外知名高校实验室,以及智元机器人、优必选、小米、傅里叶机器人等具身相关头部公司[14] - 社区已汇聚近3000名成员,并与近200家具身公司及机构建立联系[53] - 社区提供持续更新的直播分享、圆桌论坛,内容涵盖本体、数据、算法等,探讨行业现状与待解决问题[3][4] - 社区建立了与多家公司的岗位内推机制,可帮助成员将简历直接递送至目标公司[12] - 社区邀请了数十位活跃在产业与学术一线的大咖作为嘉宾,为成员答疑解惑[12] 社区提供的学习资源与内容体系 - 为入门者整理了完整的技术栈和学习路线[6] - 汇总了超过40个开源项目、近60个具身智能相关数据集以及行业主流仿真平台[14] - 提供了广泛的技术学习路线,包括但不限于:具身智能感知、交互、强化学习全栈、VLN、VLA、多模态大模型、Diffusion Policy、传感器融合、机械臂控制、机器人导航、世界模型等[14] - 汇总了具身智能领域的国内外高校实验室信息,供升学深造参考[16][17] - 汇总了涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向的国内外机器人公司信息[18][20] - 汇总了行业相关研报,便于跟踪行业发展与工业落地情况[20] - 汇总了机器人导航、动力学、运动学、路径规划、视觉控制等多个方向的PDF书籍资源[22][23] - 汇总了机器人芯片、激光雷达、相机、IMU等核心零部件的知名制造厂商信息[24] - 汇总了ToF与3D相机厂家的产品、技术手册及综述[26] - 汇总了数据采集方案(如遥操、动作捕捉)以及感知、导航、大模型等多个领域的开源数据集[27][29] - 汇总了通用及真实场景的机器人仿真平台[30] - 针对强化学习、VLA+RL、具身感知、交互、视觉语言导航、触觉感知、多模态大模型理解与生成、大模型微调与部署、机械臂抓取、双足/四足机器人等前沿领域进行了专项内容汇总[30][31][33][34][36][37][39][40][42][44][45][47]
首个基于3DGS的VLN具身学习数据集,群核科技联合浙大开源SAGE-3D
具身智能之心· 2025-12-25 12:01
文章核心观点 - 群核科技联合浙江大学开源的SAGE-3D数据集,将3D高斯泼溅技术从一个高保真渲染工具,升级为兼具精细语义理解和物理碰撞检测的可执行导航环境,解决了3DGS在具身智能领域“只能看,不能碰”的核心痛点,为视觉语言导航任务的训练与评估提供了新的范式[3][7][14][30] 3DGS技术在具身智能领域的应用与局限 - 3DGS因其超逼真的实时渲染和高效数据获取能力,被视为缩小“仿真到现实”差距的关键技术,在具身智能领域备受青睐[2][9] - 3DGS的两大关键优势在于:1) 更便捷可靠的物体级语义理解,因其离散高斯分布表征便于直接标注;2) 视角一致的照片级真实感呈现,能从任意可导航位置生成一致视图[9] - 然而,传统3DGS生成的数据缺乏面积、尺寸、几何结构等基础物理信息,无法反映物体真实几何形状、尺寸及运动碰撞问题,限制了其在需要物理交互的机器人导航任务中的应用[2][9] SAGE-3D数据集的核心构成与特性 - **大规模语义数据集InteriorGS**:包含1000个带精细标注的3DGS室内场景,涵盖755类物体、超过55.4万个实例,每个物体都有类别、实例ID、边界框等信息,使机器人能精准识别如“红色椅子”等精细指令[13] - **VLN基准测试SAGE-Bench**:包含基于上述1000个场景的超过554,000个对象实例的真实碰撞体数据,以及面向VLN任务的200万条“轨迹-指令”对数据[13] - **指令体系**:指令分为高层和低层。高层指令贴近真实场景(如“我渴了,去冰箱拿饮料”),低层指令聚焦基础动作(如“向前走两步”),覆盖5类语义场景和多种动作需求[13][18] - **评价体系**:从任务类型、指令层级、场景复杂度三个维度评估模型,并设计了连续成功率、累积碰撞惩罚与路径平滑度等新指标,以更系统评估导航模型的性能[13][19] SAGE-3D的技术突破与赋能 - **语义赋能**:通过InteriorGS数据集,为3DGS场景中的物体绑定目标级语义(如类别、实例ID),使其从“无意义像素”变成“可理解物体”,支撑精细的语言指令[22][31] - **物理赋能**:采用“3D高斯+网格”混合表示,在保留3DGS高保真渲染能力的同时,从原始网格中提取每个物体的碰撞体作为物理层,解决了机器人“穿墙”问题,使其从“纯视觉工具”变成“可交互环境”[22][31] - **生态完善**:通过提供大规模数据集和基准测试平台,形成了“数据-训练-评估”闭环,推动VLN技术发展[31] SAGE-Bench基准测试平台的性能表现 - **数据体量优势**:SAGE-Bench包含200万条轨迹-指令对和55.4万个精细碰撞物体,在任务量、场景数量上显著超越以往基准[16][17] - **模型性能优异**:在SAGE-Bench测试中,基于SAGE-3D训练的模型表现突出,其中NaVILA-SAGE的成功率达到0.46,远超普通VLN模型[21][24] - **强泛化能力**:仅在SAGE-3D数据上训练的模型,在传统VLN-CE基准的未见过场景中,成功率提升了31%,表明其高保真数据具有强泛化性[21][26] - **渲染效率**:3DGS-Mesh混合表示的单帧渲染平均耗时6.2毫秒,内存占用220MB,优于扫描网格数据的16.7毫秒和850MB,但达到相同性能所需的训练迭代次数更多[25] 对行业的意义与前景 - SAGE-3D重新定义了3DGS的应用边界,使其真正适配机器人导航需求[30] - 该方案为坚持“真实到仿真再到真实”路线的公司提供了新方案,在真机数据昂贵的当下,有助于在数据质量和成本之间找到平衡[30] - 未来,该技术可拓展到更复杂的户外场景,并支持多机器人协作、物体操纵等更高级任务[30]
直面VLA的「阿喀琉斯之踵」:TeleAI提升具身推理稳定性
具身智能之心· 2025-12-25 09:41
文章核心观点 - 视觉-语言-动作模型在推理阶段存在对初始噪声敏感导致的不稳定性问题,这阻碍了其从实验室走向真实世界部署 [1][4] - 中国电信人工智能研究院联合高校团队提出名为TACO的创新框架,通过测试时反探索原理来解决此问题,无需修改模型参数,在模拟和真实机器人实验中显著提升了任务成功率 [1][9][10] VLA模型推理不稳定性问题 - 即使经过任务特定数据微调,VLA模型在推理时对初始噪声极其敏感,仅改变初始噪声向量就可能导致任务成功率在0%至80%之间剧烈波动 [4] - 问题根源在于预训练阶段吸收了过于广泛的动作模式,以及微调数据集本身的多模态性,导致策略分布中保留了与任务成功无关的冗余或次优模式 [6][8] TACO框架的核心原理与设计 - TACO从离线强化学习的“反探索”原理获得灵感,旨在约束生成的动作使其保持在微调数据集中成功模式的支持范围内 [10] - 框架核心是通过Test-Time Scaling实现,包含耦合伪计数估计器、高保真特征搜索和生成-验证两阶段推理三个关键组件 [12] - 耦合伪计数估计器将轻量级的Coin-Flipping Network附加到VLA模型的最后隐藏层,直接利用模型内部丰富的表征能力,避免了训练独立编码器的资源消耗和先验知识丢失 [12][13] - 高保真特征搜索针对基于flow-matching或diffusion的VLA模型,通过使用不同噪声水平查询模型并选择预测动作最接近原始真实动作的内部表示,解决了直接输入干净动作导致特征失配的问题 [14][15][16] - 两阶段推理首先生成M个多样性动作候选,然后通过CFN计算伪计数并选择计数最大的动作执行,该过程有坚实的离线强化学习理论支撑 [18][19][20] TACO的计算优化 - 采用共享观察键值缓存技术,VLA的Transformer主干对共享上下文只需计算一次KV缓存,即可在所有并行动作生成中重复使用,大幅降低计算开销 [21] - 实验显示,当采样32个动作时,KV缓存优化将推理时间减少了73.2%,使得平均推理延迟仅增加200ms,满足实时控制需求 [21] 实验验证与性能提升 - 在RoboTwin基准上,TACO将π0模型的平均成功率从32.2%提升至41.3%,提升幅度达9.1个百分点,在最具挑战性的“挂衣架”任务上,成功率从7.0%跃升至12.0% [24][26] - 在另一个基准上,TACO使RDT模型的平均成功率从34.6%提升至64.0%,提升幅度达29.4个百分点 [27] - 在Simpler-WindowX基准上,TACO使π0的平均成功率从48.0%提升至55.5%,在“勺子放在毛巾上”和“胡萝卜放在盘子上”任务上分别提升16和10个百分点 [28][29] - 在LIBERO-long终生学习基准上,TACO在基础模型π0.5已达94.8%高成功率的基础上,仍能进一步提升1.8个百分点,在“Moka壶放在炉灶上”任务上成功率从68%大幅提高到86% [30][31] - 在RealMan75双臂机器人真实世界实验中,TACO将5个任务的平均成功率从40%提升至56%,提升幅度达16个百分点,在“纸和笔整理”任务上提升高达25个百分点,在“笔记本电脑操作”任务上提升15个百分点 [32][34] TACO的有效性机制 - 核心机制在于CFN估计的伪计数与预测动作和真实动作之间的L2距离存在强负相关性,选择最高伪计数的动作几乎总是选择最接近真实动作的动作,从而有效过滤次优行为 [17][36] - 消融实验表明,移除CFN伪计数、不进行特征缩放或不使用内部特征都会导致性能显著下降,验证了设计选择的重要性 [37]
从零开始!使用低成本机械臂复现pi0和pi0.5~
具身智能之心· 2025-12-25 09:41
文章核心观点 - 具身智能领域,特别是视觉语言动作模型的学习与应用面临巨大实践挑战,包括真机数据采集困难、模型训练优化复杂、部署流程繁琐,导致初学者入门耗时且难以取得效果[2] - 为应对上述挑战,具身智能之心平台联合业内专家推出了国内首个《面向实战与求职的VLA小班课》,旨在通过系统化、实战化的课程,结合赠送的SO-100机械臂硬件,帮助学员快速掌握VLA全栈技术,节省“踩坑”时间,并积累可写入简历的项目经验[4][5][6] 课程内容与结构 - 课程共分九章,内容全面覆盖从VLA基础理论、机械臂硬件平台、数据采集处理、主流VLA模型部署与真机实战、仿真环境搭建、模型轻量化与蒸馏、VLA与世界模型融合、VLA评测到产业趋势分析的全链路知识[8][9] - 课程重点部署和详解了ACT、GR00T N1/N1.5系列、π0/π0.5/π0-fast等当前主流和前沿的VLA模型,包含环境配置、核心代码讲解、模型训练推理及真机效果展示等实战环节[15][17] - 课程包含仿真环境(如Isaac Lab)的配置、场景搭建以及与真机的联动,并设有专门的章节讲解模型量化与蒸馏技术,以SmolVLA为例进行实战分析[15] - 课程最后部分探讨VLA与世界模型融合的架构、VLA评测基准(如Libero、Robo Challenge),并对VLA技术趋势与产业落地进行分析[15][16] 课程配套与师资 - 购买课程的学员将获赠一套SO-100机械臂(包含示教臂和执行臂),用于课程的真机实践环节[16] - 课程讲师为某机器人公司VLA高级研究员,拥有超过5年机器人行业实战经验,在IEEE Trans等顶级期刊发表学术论文10余篇,具备产学研协同落地经验[20] 目标学员与学习要求 - 课程面向正在具身领域求职、需要实战项目的同学,VLA领域的入门进阶者,从事具身智能研究的本硕博学生,以及希望从传统CV、机器人或自动驾驶领域转行进入具身智能的人员[21][24] - 学习硬件建议推理使用RTX 3060及以上显卡,训练建议2张以上RTX 3090 Ti显卡,也可自租云服务器资源[24] - 学员需具备一定的Python和PyTorch基础,学成后可掌握真机调试与数据采集、各类VLA算法真机部署、VLA模型量化等技能,并对具身产业有清晰认识[22][24] - 课程宣称学完后可达到具备1-2年以上经验的算法工程师水平[25] 课程安排 - 课程于2025年12月30日正式开课,按章节分阶段进行,持续至2026年2月25日结束[25]
27秋具身方向博士联合招生|北大王鹤老师 x 清华弋力老师 x 银河通用张直政博士
具身智能之心· 2025-12-25 09:41
联合招生计划概述 - 北京大学、清华大学与银河通用机器人公司联合启动面向2027年秋季入学的博士生招生计划,提供十个以上博士名额,并包含港澳台及外籍学生专属名额 [1] - 招生采用“面试筛选->科研实习冬令营->博士录取”的选拔模式,实习场地为银河通用北京总部,实习表现是博士录取的直接依据 [1][2] - 计划面向全球优秀的大三本科生和研二学生开放申请,极其优秀的其他年级学生也可投递,通过简历筛选者将获得线上面试机会 [2][3] 导师团队与合作伙伴 - 王鹤博士是北京大学助理教授、博士生导师,同时是银河通用机器人公司的创始人兼CTO,曾获斯坦福大学博士学位,研究聚焦具身多模态大模型和人形机器人技能学习 [2] - 弋力博士是清华大学交叉信息研究院助理教授、博士生导师,国家优青(海外),拥有斯坦福大学博士学位及谷歌研究院工作经历,研究聚焦人形机器人学习与具身感知 [3][4] - 张直政博士是银河通用机器人联合创始人与大模型负责人,主导发布了全球首个由全仿真数据预训练的端到端操作大模型GraspVLA等多个模型,拥有微软亚洲研究院资深经验 [5] - 联合团队与NVIDIA、Microsoft、Google、Stanford等全球科技巨头和高校建立了深入合作关系,提供国际科研交流机会 [9] 研究方向与核心内容 - 科研围绕具身智能展开,致力于打造能理解物理世界并与之交互的通用智能体 [2] - 核心研究方向包括具身VLA大模型、人形机器人移动操作、灵巧手操作、具身硬件智能设计、世界模型、多模态具身感知与推理、具身仿真及人机交互等 [3] 申请条件与方式 - 招生对象为国内外顶尖大学本科三年级在读学生(2027年本科毕业),专业背景包括计算机、人工智能、自动化、电子、软件工程、机械工程、物理、数学等相关领域 [9] - 申请者需数理基础扎实、编程功底深厚,对人工智能和机器人有强烈兴趣,具有相关科研经历或顶会论文者优先 [9] - 实习要求承诺至少5个月,以确保有足够时间深入项目并取得实质性成果(如顶会论文发表) [9] - 申请方式需将个人简历(含排名、成绩单、科研经历、论文列表等)发送至指定邮箱,邮件主题格式为【2027博士申请+冬令营】姓名-学校-专业-年级 [8][9] 优势与资源 - 提供顶级的科研环境,融合北大、清华、Stanford等顶尖高校的学术底蕴以及银河通用作为具身智能独角兽企业的产业资源 [9] - 配备硬核的硬件设施,包括各种最先进的机械臂、灵巧手、移动操作机器人、人形机器人以及充分的GPU算力保障 [9] - 银河通用提供全栈的工程辅助,包括世界一流的硬件设计制造、软件工程化和产品团队,支持科研成果转化或孵化 [9] - 参与者将参与具身大模型与通用机器人的核心研发,代码可部署在真实机器人上并在物理世界产生影响 [9]
从 2D 感知到 3D 预测:GeoPredict 重构VLA模型的几何推理能力
具身智能之心· 2025-12-25 09:41
文章核心观点 - 由香港中文大学(深圳)、湖南大学、理想汽车等联合团队提出的GeoPredict框架,通过“预测性运动学 + 3D高斯几何”的双核心架构,为视觉-语言-动作模型注入了未来感知的几何先验,突破了传统方法在3D空间推理和长时程物理一致性方面的瓶颈,显著提升了机器人操纵的精度与泛化能力 [2][3][17] 传统VLA模型的局限 - **空间建模缺失**:现有模型局限于2D图像空间进行反应式决策,缺乏对物体姿态、间隙、末端执行器运动的显式3D几何建模,在需要精准定位的任务中可靠性不足 [3] - **长时程预测不足**:反应式策略仅依赖瞬时观测,无法捕捉运动惯性与场景动态演化,难以应对长时程操纵任务中的物理一致性要求 [4] - **推理效率矛盾**:引入复杂3D预测模块的方法往往导致推理时计算开销激增,无法满足实时机器人控制的部署需求 [5] GeoPredict的技术架构 - **第一层:轨迹级运动学预测模块**:通过编码运动历史、预测多步轨迹,为策略提供显式的运动学先验,并引导后续几何建模的资源分配 [6][8] - **第二层:预测性3D高斯几何模块**:基于3D高斯splatting的高效表征能力,构建未来场景几何预测模块,并利用预测的未来关键点轨迹生成二进制细化掩码,对交互区域分配更多高斯基元,实现高分辨率建模 [6][8] - **第三层:块级因果注意力**:将不同类型的token按“感知-预测-控制”层级组织,块内双向交互,块间严格因果注意力,构建合理高效的信息流动链路 [6][8] - **训练-推理解耦设计**:运动学预测与3D高斯几何模块仅在训练时提供监督信号,推理时仅需轻量级查询token,保持与基础VLA模型一致的高效性 [8] 性能验证结果 - **RoboCasa Human-50基准测试**:在24个复杂日常任务的少样本设置中,平均成功率达52.4%,较基础模型提升10.1%,大幅超越BC-Transformer和GWM等基线方法 [10] - **LIBERO基准测试**:在空间推理、物体交互、目标达成、长时任务四大套件中平均成功率达96.5%,超越UniVLA+和4D-VLA等当前SOTA方法,尤其在长时任务中提升6.4% [10] - **真实场景验证**:在空间、几何、鲁棒性三大任务中,成功率分别达到85.0%、95.0%和90.0%,显著高于基线模型的60.0%、50.0%和35.0% [14] - **组件消融分析**:添加轨迹编码器使平均成功率提升2.5%,结合未来轨迹查询后提升至47.2%;基础3D高斯建模提升至49.4%,结合轨迹引导细化后达到52.4% [11][12] - **效率对比**:轨迹引导细化训练效率较全局高分辨率建模提升20%,且性能更优 [12] 局限与未来方向 - **几何表征维度**:当前聚焦深度几何建模,未融合物体材质、物理属性等信息 [18] - **预测步长平衡**:更长的预测步长可能提升长时任务性能,但需解决累积误差问题 [18] - **实时性优化**:轨迹预测与注意力计算仍有精简空间,可结合模型压缩技术提升部署效率 [18] - **多机器人适配**:当前针对单臂机器人设计,未来可扩展至多臂协作场景 [18]
深扒了具身的数据路线,四小龙的格局已经形成......
具身智能之心· 2025-12-24 18:04
文章核心观点 - 具身智能行业正围绕数据采集、模型训练、数据扩展和模型优化的闭环链路发展,数据是当前发展的主线[1] - 行业并非寻求单一最优解,而是在不同阶段和约束下,沿着四条数据路线同时前进[3] - 这四条路线已形成四种具身数据供给范式,并初步形成了以智元、银河、它石、鹿明为首的“具身数据四小龙”格局[4][34] - 2026年行业竞争将加剧,但掌握数据话语权的公司前景看好[5] - 具身智能正从探索阶段走向长期能力迭代,数据体系的重要性从“支撑算法”转变为“决定节奏”[43] 四条核心数据路线及其特点 - **遥控真机数据**:最真实、最昂贵,数据价值密度极高,是研究者的“安全感来源”,但存在慢、贵、强绑定本体、规模扩张成本线性增长等问题,被视为高质量样本但难以大规模供给[6][8][9][10][12][13][14] - **仿真合成数据**:效率高、规模几乎无限,通过技术提升“像真度”,但始终存在与现实世界的“领域鸿沟”,在精细操作和复杂交互中问题会被放大,是很好的“训练场”但难决定真实世界上限[6][16][17][18][19][20][21] - **人类视频数据**:最便宜、数据量巨大、获取成本极低、场景覆盖极广,但易被误解,存在人体与机器人结构不一致、缺少力觉触觉反馈、动作可执行性无保证、标注对齐成本高等问题,通常作为真实交互数据丰富后的“叠加项”而非起点[6][22][23][25] - **UMI数据**:无本体依赖,更通用的数据协议,重新定义了数据与机器人本体的关系,将真实交互数据从特定机器人解耦,实现了真实世界交互、多本体适配、多机并行采集、工业级质量控制及可长期规模部署,让真实数据首次具备持续供给的可能性,正成为重要的具身数据基础设施[6][27][28][30][31] 各路线代表公司及实践 - **遥控真机路线**:海外以特斯拉为代表,国内以**智元机器人**为代表,其开源了百万真机数据集AgiBot World,并支撑了GO-1具身基座大模型和全人形WholeBodyVLA方案[35][39] - **仿真数据路线**:国内以**银河通用**为代表,基于十亿量级仿真数据发布了全球首个全仿真预训练具身大模型GraspVLA及灵巧手抓取数据集DexonomySim[35][39] - **人类视频路线**:海外有Figure AI,国内以**它石智航**为代表,发布了包含10万+真实人类操作视频的WIYH数据集及配套的SenseHub数据采集系统[35][39] - **UMI路线**:海外有Generalist用27万小时真机数据训练Gen0模型验证价值,国内**鹿明机器人**是产业界最早探索该路线的代表,发布了FastUMI Pro系统,使采集效率提升3倍,成本降至传统方案的1/5[35][39] 各数据路线的角色与行业意义 - 遥控真机数据用于**验证能力上限**[40] - 仿真数据用于**放大探索空间**[40] - 人类视频数据用于**扩展语义覆盖**[40] - UMI数据用于**支撑真实世界的长期数据供给**[40] - 四条路线并非互相否定,而是各自承担不同角色,共同构成行业的数据供给结构[38] - UMI路线对团队早期选择与持续投入依赖更强,其积累是路线选择和长期投入的结果[41][42] - “具身数据四小龙”是当前阶段性结构分工的描述,未来优势将取决于哪些团队能在真实世界中持续运行并累积数据[44][45]
李弘扬老师团队最新工作X0!超低成本高效实现机器人操作任务~
具身智能之心· 2025-12-24 12:01
文章核心观点 - 公司提出了一套高效的三阶段技术理念,旨在以远低于行业常规的成本,在真实场景的服装操控任务中实现100%的可靠性[2] - 核心观点是实现机器人技能精通的关键在于战略对齐,而非单纯依赖数据与算力的规模堆砌[4] 方法体系:模式一致性 - 模式一致性旨在解决人类演示分布、模型习得策略分布与真实场景执行分布之间的动态对齐问题,以最小化导致任务失败的分布偏移[3][8] - 传统模仿学习流程存在两种潜在不一致性:训练与部署间的协变量偏移,以及由推理函数导致的部署偏差[11][12] - 通过两种基础策略稳定分布:在数据范围,采用Dagger方法注入在线策略恢复轨迹,并应用时空增强;在推理范围,采用分块时间平滑与实时分块来减少执行抖动[13][14][15][18] - 改进的数据采集与在线策略恢复轨迹显著提升了模型错误恢复能力,既提高了成功率,也降低了每次失败对应的重试次数[21] - 时空增强大幅提升了模型性能,不仅提高了成功率,还增加了单位时间内的任务吞吐量[23] - 推理优化确保了策略预期动作被完美转化为流畅连贯的实机执行,同时提升了任务吞吐量[26] 方法体系:模型算法 - 公司提出了模型算术法,以解决机器人领域迭代研究周期中数据采集成本高、全量重训难以承受的困境[27] - 该方法仅在新采集的数据子集上训练模型,然后通过“在线策略优化引导的权重插值”,将新模型与旧模型合并,融合了从不同数据子集中学到的独特策略流形[27][28] - 合并后的模型在多个任务上的表现,超过了各组成模型中的最优者,也优于用全量数据集一次性训练的基准模型[30] 方法体系:阶段优势 - 针对长时程操控中“同一状态下有多个合理动作可选”的难题,公司提出了更直接的优势信号建模方式[31] - 传统方法通过分别对当前状态和动作后状态打分并取差值来间接获取优势,而公司方法将优势作为直接建模目标,通过配对观测预测状态间的相对进展[31] - 阶段优势法将长时程操控拆解为一系列语义阶段,判断每个动作是否可能推进当前阶段,从而为策略训练提供感知阶段的优势信号[35] - 公司提出的Direct+Stage方法,相比传统的Value-diff方法,能实现更平滑稳定的进展累积,并最终实现了更低的MSTD、更高的SFR与更高的成功率[35][37] 成本与效率成果 - 公司在服装操控任务中实现从0%到100%可靠度的方案,仅需20小时人类演示数据和8台A100 GPU[2] - 该方案成本远低于行业常用方法,后者通常需要数万小时数据和数百台GPU[2]
具身智能之心元旦开始送一波福利了(课程/具身硬件/科研辅导等)
具身智能之心· 2025-12-24 12:01
营销活动与产品促销 - 公司在特定时间段(12月24号至1月5号)内开展营销活动 [1] - 公司对具身智能相关课程提供7.5折优惠 [3] - 公司知识星球对新加入用户提供6折优惠,对老学员续费提供5折优惠 [3] - 公司对高性价比的具身科研机械臂硬件产品提供最高1500元的折扣,此为今年首次此类活动 [3] - 活动期间,具身课程消费满3000元,将获赠一门高质量具身课程,需联系助理领取 [3] 服务与产品线 - 公司提供付费课程与社区服务 [2] - 公司提供论文辅导与项目辅导服务,其中项目辅导包含1对1求职辅导且正处于优惠中 [3][4] - 公司提供科研论文辅导服务,可通过指定微信(paperguidance)咨询 [6] - 公司课程、知识星球及硬件产品的咨询可通过联系助理微信(AlDriver005)进行 [6]