具身智能之心
搜索文档
统一高效VLA+RL训练平台RLinf-VLA!
具身智能之心· 2025-10-13 08:02
核心观点 - RLinf-VLA是清华大学推出的首个面向具身智能的大规模强化学习框架,提供了一个统一、高效的平台用于视觉语言动作模型与强化学习的研究 [2] - 该框架的核心特点是“快”、“多”、“好”,系统级优化使吞吐量比基线平台提升2.27倍,支持大规模多任务训练,单个模型在130个任务中成功率高达98.11% [2] - 框架旨在解决当前VLA+RL研究中存在的算法设计分析不全面、基础设施上手难度高、算力昂贵等开发困境 [3] 系统设计 - 框架具有“统一”特性,支持LIBERO和ManiSkill两类典型仿真器,支持OpenVLA和OpenVLA-OFT两种主流模型,并支持PPO和GRPO两种强化学习算法 [5] - 框架具有“高效”特性,系统层面通过YAML文件可灵活切换3种分配模式,吞吐量提升高达2.27倍,算法层面引入了轻量化critic、轨迹长度归一化等优化设计 [5] - 针对不同仿真器的资源需求特点,框架提供了共享式、分离式、混合式三类GPU调度模式,并在混合式中支持细粒度流水设计,以优化资源调度减少GPU空闲 [6][7] - 在ManiSkill仿真器中,OpenVLA模型采用混合式细粒度流水调度模式(k=2)展现了最佳吞吐,吞吐量加速达1.61倍至1.88倍 [7][43] - 在LIBERO仿真器中,OpenVLA-OFT模型的最佳调度模式是共享式,其训练速度比基线快1.34倍至2.27倍 [44] 算法设计 - 框架定义了VLA模型输出的三个粒度:Token-level、Action-level和Chunk-level,并支持两种优势函数计算粒度和三种对数概率计算粒度 [12][14] - 在PPO算法中,基于动作级(action-level)的价值估计优于基于块级(chunk-level)的估计,且部分重置(partial resets)可显著提升采样效率 [9][17] - 在GRPO算法中,轨迹长度归一化与动作掩码是稳定训练的关键,框架还设计了过滤机制,可加速策略收敛并提升模型性能 [9][25][29] - 对于PPO算法,框架采用了轻量化的Critic模型设计,与Actor策略共享大部分参数以减少GPU资源占用 [21] 性能表现 - 在ManiSkill的25个pick&place任务中,经过训练的模型成功率相较于基础模型提升幅度在45%至70%,其中PPO算法表现更稳定,OpenVLA-OFT模型达到97.66%的成功率 [31][35] - 在LIBERO所有的130个任务中,采用GRPO算法训练的单个OpenVLA-OFT模型成功率高达98.11%,在部分任务组中成功率超过99% [40] - 在训练数据分布外的泛化能力测试中,OpenVLA模型也表现出色,成功率优于对比基线 [34][35] - 真机实验表明,在Franka机械臂上部署的OpenVLA模型展现出零样本泛化能力,其任务成功率显著优于基于SFT训练的策略 [45][46]
有臂有手还带主动视觉?全球首款桌面级灵巧手机械臂BeingBeyond D1震撼发布
具身智能之心· 2025-10-13 08:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 在具身智能蓬勃发展的今天,高校与科研机构对兼具性能与性价比的机器人平台需求愈发迫切。然而,传 统工业机械臂不仅价格高昂、动辄数十万元,还面临开发复杂、维护困难、算法与模型配套缺失等诸多瓶 颈,严重限制了科研创新的落地效率。 为打破这一局限, BeingBeyond正式发布全球首款桌面级灵巧手机械臂——D1 。它将"机械臂 + 灵巧手 + 主动视觉系统"三大核心功能集于一体,高性价比价格 ,打造高集成度的一体化平台 ,真正实现具身智能 的即刻上手。 D1不仅拥有强大的硬件能力,更搭载自研VLA大模型 Being-H0 ,覆盖 从数据采集、模型训练到部署落地 的完整链条 ,开箱即用,开源灵活,为科研人员提供一站式、低门槛的具身智能研究平台。 灵活模块化设计,功能强大、扩展无限 D1机械臂,不止是"灵巧",更是为科研量身打造的全能平台。它采用高度模块化架构,拥有19个自由度 (6臂 + 2头 + 11手),其中14个为主动自由度,5个为被动联动自由度,真正实现从感知到操控的全流程覆 盖。 模块解耦、接口标准,随装随用、随拆随换,是科研与教学的理想选择。 机械臂模块 ...
宇树科技2025发布的R1人形机器人荣登美国《时代周刊》2025年度最佳发明
具身智能之心· 2025-10-12 00:02
宇树科技行业荣誉 - 公司R1人形机器人荣登美国《时代周刊》2025年度最佳发明 代表行业发展新高度 [4] - 公司创始人王兴兴被评选为2025年度AI领域最具影响力100人 [4] - 公司被评选为2025年度全球100大最具影响力企业 [4] 具身智能行业社区与资源 - 具身智能之心知识星球是国内首个具身智能开发者社区 关注领域包括数据集、仿真平台、VLA、VLN、大模型、强化学习等 [8] - 社区汇总近30+学习路线、40+开源项目、近60+具身智能相关数据集 [8] - 社区汇集近200家公司和机构进行学术和产业交流 [9] 具身智能行业技术社群 - 具身智能之心社群覆盖大模型、VLN、VLA、Diffusion Policy、足式机器人、规划控制等方向 [13] - 社群拥有近60+技术交流群 面向学校/公司等不同背景的开发者 [13]
光会“看”和“说”还不够,还得会“算”!Tool-Use+强化学习:TIGeR让机器人实现精准操作
具身智能之心· 2025-10-12 00:02
文章核心观点 - 公司提出TIGeR框架 旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点 通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性 与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型 并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位 通过集成深度信息和相机参数 能将如“上方10厘米”的指令精确转换为三维坐标 达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理 在多镜头场景下可将各视角信息合并 并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性 模型的每一步推理过程清晰可见 包括工具调用 参数输入和结果输出 便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程 第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链 第二阶段通过创新的分层奖励机制进行强化学习 精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集 包含30万个样本 覆盖各类核心任务 其构建结合了模板化生成以保证规模和基础问题解决能力 以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率 均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率 在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]
对刚入门具身的同学来说,试错成本确实有点高......
具身智能之心· 2025-10-12 00:02
社区定位与价值主张 - 社区定位为国内首个具身全栈社区,旨在打造超大的具身与机器人社区,满足初学者学习和进阶需求[13] - 核心价值在于降低行业进入门槛,解决学习者缺乏完整知识体系和试错成本高的问题[1] - 社区致力于在成员求职时提供职位内推和辅导,升学时提供信息和选择建议[1] 社区资源与内容体系 - 汇总近30+技术路线,覆盖从benchmark、综述到学习入门路线,旨在缩短用户检索时间[4] - 整理近40+开源项目、近60+具身智能相关数据集以及行业主流仿真平台[14] - 提供超过15个专项学习路线,包括具身智能感知、交互、强化学习全栈、VLN、VLA/VLA、Diffusion Policy等[14][15][43][63] - 汇总机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍供基础学习[27] - 针对具身感知、触觉感知、导航、大模型、机械臂抓取等领域的开源数据集进行了汇总[37] 行业覆盖与产学研链接 - 社区成员来自斯坦福大学、加州大学、清华大学、ETH等国内外知名高校实验室,以及智元机器人、优必选、小米等具身机器人头部公司[14] - 汇总了国内外具身智能高校实验室,供成员读研、申博、博后参考[18][19] - 汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等方向[22] - 汇总了大模型、人形机器人等行业相关研报,帮助成员了解行业发展与工业落地情况[24] - 汇总了机器人行业知名零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等品牌[29] 专家网络与互动机制 - 邀请了数十位活跃在一线产业界和工业界的具身领域嘉宾,成员可随时提问并获得答疑解惑[4] - 社区提供圆桌论坛、直播等活动,分享从本体、数据到算法的行业动态与问题[4] - 成员可在社区内自由提问,无论是工作选择还是研究方向选择都能得到解答[75] - 社区与近2000名同学、200家具身公司与机构共同交流产业、学术、工程落地等话题[78] 职业发展支持 - 与多家具身公司建立岗位内推机制,可第一时间将成员简历送至心仪公司[6] - 分享多家头部具身机器人公司的招聘岗位信息[7] - 为入门者整理技术栈和路线,为从业者提供产业体系和项目方案[8][10]
港中文(深圳)冀晓强教授实验室全奖招收博士/博士后
具身智能之心· 2025-10-12 00:02
研究内容与方向 - 实验室聚焦人工智能控制理论、具身智能控制及强化学习控制等核心研究方向[11] - 致力于深度融合控制论、人工智能、机器人学、高性能计算及大数据等基础科学[13] - 开展人工智能与智能系统领域的基础理论与原创性研究[13] 任职要求与候选人背景 - 博士后需已获得或即将获得控制科学与工程、人工智能、机器人、计算机科学等相关专业博士学位[2] - 博士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业硕士学位或优秀学士学位[3] - 硕士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业本科学位[5] - 候选人需对控制理论、人工智能、机器人学有浓厚科研兴趣并具备扎实数学和编程基础[4] 通用技能与加分项 - 熟悉CLIP、BLIP、LLaVA等多模态大模型及其应用[6] - 熟悉VAE、Transformer、BERT等经典模型并具备实现与调试能力[7] - 具备出色算法设计与编程能力,熟悉Linux,掌握C++/Rust等高性能语言者更佳[8] - 了解LLaMA、Qwen等大语言模型架构,具有无监督预训练、SFT、RLHF等实践经验者优先[9] - 曾在IJRR、ICRA、IROS、RSS等机器人顶会或ICML、NeurIPS、ICLR等AI顶会发表论文者优先[12] - 拥有顶尖竞赛经历或知名企业核心AI项目主导经验者优先[12] 导师与实验室资源 - 实验室导师冀晓强教授为香港中文大学(深圳)理工学院助理教授,主持多项国家级及省市级科研项目[13] - 实验室在IEEE Transactions on Automatic Control、Automatica等顶尖期刊及会议发表论文五十余篇[13] - 实验室提供国际化科研氛围、丰富算力资源及行业合作机会[2] 福利待遇 - 博士后可获得省市生活补助每人每年税前21万元,总额不超过42万元,大学另提供每人每年5万元专项补贴[14] - 博士后符合条件者可申请广东省海外博士后人才支持项目,享受在站补贴税前60万元/2年,出站留粤补贴税前40万元/3年[14] - 博士后可申请各级科研课题资助,出站后深圳市给予30万元科研或创业资助[14] - 博士生可获全奖/半奖,学费全覆盖并额外提供生活津贴,优秀者可申请校长奖学金税后18万/年[15] - 研究型硕士优秀者可额外提供生活津贴,毕业后有转PhD机会[16] 申请流程 - 申请材料需包括个人完整中英文简历、已发表代表作论文及其他证明个人科研能力的材料[19] - 申请邮件需以“姓名-当前所在单位/机构-博士后/博士/研究型硕士申请”为题发送至指定邮箱[17]
具身智能迎来数据革命!它石智航发布WIYH数据集,比特斯拉Optimus领先半年
具身智能之心· 2025-10-11 18:00
行业核心问题与解决方案 - 主流大模型预训练依赖的互联网数据和仿真数据存在质量参差不齐、缺少动作信息、真实性有限及场景泛化难等不足,导致模型难以丝滑迁移到现实世界 [1] - 对人形机器人而言,实现“具身智能”的最大难关并非算法,而是如何获得规模化、真实、可泛化的高质量训练数据,这已成为行业公认的“卡脖子”难题 [1] - 公司发布的全球首个大规模真实世界具身VLTA多模态数据集World In Your Hands,旨在解决上述数据短缺与质量问题,标志着以人为中心的具身数据引擎新范式正式确立 [1] WIYH数据集的核心特征 - 数据集具备四大核心特征:真实(采集源于真实具身任务)、丰富(横跨多个行业与操作技能)、全面(囊括视觉、语言、触觉、动作多模态全真值)及海量(量级上限堪比大语言模型) [3] - 数据采集覆盖酒店洗衣、超市装配、物流作业等多种真实工作场景的人类标准操作流程,解决了“数据量少、质量低、成本高”的问题 [3] - 通过深入真实生活操作场景采集数据,对比业内高成本自建数采工厂,显著提升了数据的真实性、多样性和泛化能力,同时降低数采成本一个数量级以上 [4] WIYH数据集的独特优势 - 在模态完整性上,通过自研采集套件同步获取视觉、力触觉和动作数据,确保多源数据在时间和空间上的精准对齐 [4] - 在数据标注链路上,依托云端基础大模型完成高精度标注,覆盖2D语义、场景深度、操作任务分解等多粒度真值标签,为模型预训练提供全面多维的监督信号 [4] - 该数据集是行业首次将视觉、语言、触觉与动作多模态数据在真实世界大规模跨行业跨任务采集,为未来实现具身基座模型的规模定律奠定了基础 [1] 行业影响与未来展望 - WIYH数据集的发布标志着以人为中心的具身数据新范式确立,让面向真实世界的具身AI World Engine预训练成为可能 [6] - 数据集立足“千行百业”,有望实现“一模千任”,成为通用具身基座模型训练的关键语料和基础设施,推动行业应用从单一任务迈向具备通用操作能力的新阶段 [6] - 公司计划于2025年12月面向行业共享开放该数据集,致力于为行业提供最优质的本体、数据和模型解决方案,以推动开放繁荣的具身智能生态 [6]
今晚分享!首篇智能体自进化综述:如何迈向超级人工智能之路?
具身智能之心· 2025-10-11 12:00
自进化智能体领域现状 - 人工智能领域正经历范式变革,从提升静态模型规模转向构建能实时学习和适应的动态智能体,自进化智能体是引领变革的全新范式[1] - 尽管学术界与工业界对自进化智能体的兴趣与日俱增,但整个领域仍缺乏系统性的梳理与顶层设计[1][6] - 多数研究将演化作为智能体整体框架的子集,未能深入回答该领域三个根本问题:智能体的哪些部分应该演化、演化何时发生以及演化如何实现[1][6] 行业核心研究问题 - 行业关注智能体自进化在哪些部分发生[5][6] - 行业关注智能体自进化在何时发生[5][6] - 行业关注智能体自进化如何实现[5][6] 行业研究资源 - 普林斯顿/清华/上交等机构联合发布了首篇智能体自进化综述论文《A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence》[5][11] - 论文链接为https://arxiv.org/pdf/2507.21046,汇总仓库为https://github.com/CharlesQ9/Self-Evolving-Agents[5] - 清华大学计算机系&智能产业研究院博士生高焕昂将进行专题分享,深入探讨该领域[2][6]
Being-VL的视觉BPE路线:把「看」和「说」真正统一起来
具身智能之心· 2025-10-11 08:02
文章核心观点 - 提出一种名为Being-VL的新方法,旨在解决多模态模型中视觉表征过早对齐文本空间导致细节丢失和幻觉的问题 [1] - 该方法的核心是将图像先进行离散化并“分词”,再与文本在同一词表和序列中由同一Transformer统一建模,从源头缩短跨模态链路并保留视觉结构先验 [1] - 通过视觉版BPE(Byte Pair Encoding)技术,在合并token时不仅考虑共现频次,还显式度量空间一致性,以优先合并既常见又在不同图像中相对位置稳定的token对 [2][7] - 采用三阶段渐进解冻训练策略,从基础对齐逐步过渡到全量微调,能在不扰动语言能力的前提下稳步提升跨模态理解 [9][12][15] 技术实现路径 - 实现分为三步:首先用VQ(如VQ-GAN)把图像量化为离散VQ tokens;随后训练一个视觉版BPE,得到更具语义与结构的BPE tokens;最后把视觉tokens与文本tokens串成同一序列,进入同一个自回归LLM统一建模 [2] - 视觉BPE tokenizer采用Priority-Guided Encoding,基于score P(a,b)=F(a,b)+α・S(a,b)进行词表构建,其中F为邻接频次,S衡量在不同图像中的相对位置一致性 [7] - 三阶段训练策略具体为:Stage-1只训练新扩展的视觉token embeddings;Stage-2解冻LLM前约25%的层;Stage-3全量解冻,在更复杂的推理/指令数据上收尾 [15] 实验效果与分析 - 相较于传统“先拉到文本空间”的做法,统一的离散表示更少丢失原生视觉信息,在细节敏感的问答与抗幻觉上更可靠 [12] - 移除BPE后,性能与稳健性会整体下降,说明增益主要来自于把“常见且空间关系稳定”的视觉模式合成更有语义的tokens [12] - 在训练资源受限情形下,与VQ等规模的码本在表达能力与训练效率之间取得更佳平衡,处于“甜点区”;词表增大至≥16K时会出现大量低利用率token [19] - 嵌入权重可视化显示,引入visual BPE后,文本与视觉token的权重分布趋于均衡与同构,降低了模态间的分布漂移与共现偏差 [16] 项目发展历程 - Being-VL-0 (ICLR 2025) 给出了视觉离散化+BPE的可行性与动机,并初步探索了两阶段训练策略 [23] - Being-VL-0.5 (ICCV 2025 highlight) 将这一路线进一步优化为统一建模框架,包含Priority-Guided Encoding、三阶段渐进解冻及配套的课程数据策略 [23]
为「具身智能」打造专属眼睛:思岚科技Aurora S全集成AI空间感知系统破晓而来!
具身智能之心· 2025-10-11 08:02
产品发布与定位 - 思岚科技正式发布新一代全集成AI空间感知系统Aurora S [1] - Aurora S是一个集成了AI算法和配套算力的空间智能感知系统,旨在为具身智能机器人提供开箱即用的强大空间感知能力 [1] - 该系统标志着机器人感知技术从功能机时代迈向智能机时代,通过全集成、AI驱动、多模态融合的设计解决行业痛点 [29] 技术革新与核心优势 - Aurora S最大的革新在于高度集成化,将自研的深度学习AI-VSLAM算法、双目深度估计和语义识别能力所需的算力硬件集成于仅238克的紧凑机身内 [3] - 系统提供从稀疏点云到带有真实色彩纹理的稠密3D地图的跨越,结合实时语义标注,使机器人能理解环境的具体物体 [7][8] - 新一代AI-VSLAM基于自研深度学习模型,在传统方案易失效的苛刻场景下表现卓越,例如能在新加坡体育馆75,000平方米的室外环境稳定建图 [11][15] - 系统具备实时闭环修正与图优化引擎,可自动修正建图累积误差,确保长期运行的可靠性 [17] - 采用120°超广角双目视觉提供高质量深度点云,并具备像素级语义理解能力,可实时识别超过18类室外场景和80类室内物体 [19][20][22] 对开发者的价值 - 极大降低开发门槛,无需额外配置算力或从头开发复杂视觉算法 [4] - 加速产品上市时间,提供开箱即用的高精度3D感知、建图与语义理解能力,让开发者聚焦于上层应用创新 [4] - 简化机器人系统设计,一体化设计极大简化了结构设计与电源管理 [4] - 配备完善工具链,包括Aurora Remote UI可视化工具和支持C++、ROS1/ROS2、Python的SDK,简化调试与集成流程 [26] 应用场景 - 赋能具身智能,为人形机器人、四足机器人提供核心视觉感知 [24] - 应用于数字孪生,高效进行3D场景重建和采集VLN/VLA训练数据 [24] - 服务于低速无人驾驶领域,如园区物流和安防巡检机器人 [24] - 赋能户外机器人,如割草机、智慧农业机器人,应对复杂非结构化环境 [24] - 提升工业自动化水平,增强AGV/AMR在动态车间环境下的智能 [24] 生态系统与扩展能力 - 可快速接入各类3DGS框架,实现前沿3D重建能力 [28] - 生成的地图和数据可一键导出用于3DGS等框架的输入数据集,支持SOTA模型评估和研究 [28] - 生成的模型文件可轻松导入Nvidia Omniverse等框架,用于VLA/VLN真值数据生成或sim-to-real训练 [28]