具身智能之心
搜索文档
当我们把VLA+RL任务展开后......
具身智能之心· 2026-01-06 18:00
如果说今年哪个方向最受欢迎,一定是VLA+RL。 VLA模型为具身智能带来了新的交互范式:机器人不再依赖精确定义的状态和规则,而是通过视觉感知环 境、理解语言指令,并直接生成动作序列。这一能力极大地降低了任务描述和系统设计的门槛,使机器人 能够应对更加开放和复杂的场景。 然而,在真实机器人系统中,VLA 往往仍然面临执行不稳定、对初始状态敏感、长时序任务易失败等问 题,其核心原因在于模型缺乏基于环境反馈的持续修正能力。 强化学习的出现为VLA带来了新的解决思路。RL并不是一门新的学科,但RL的优势为VLA提供了从"理 解"走向"执行优化"的关键机制。通过引入奖励或价值信号,RL可以在保持VLA感知与语言能力的同时,对 动作策略进行闭环优化,弥补模仿学习在分布外状态和误差累积上的不足。 当前的研究趋势也逐渐从"单纯训练 VLA 模型"转向"以 VLA 作为策略表示,结合RL进行微调和强化",包 括离线 RL 提升样本效率、层级 RL 约束长时序行为,以及基于视觉和语言的自监督反馈建模等方向。 方法上,目前VLA+RL主要分为在线RL、离线RL、test-time三种方案。 paper多,想入坑的人也多了起来.. ...
打破机器人高门槛!1.98万双臂人形机器人,带你体验具身智能新革命!
具身智能之心· 2026-01-06 12:00
点击下方 卡片 ,关注" VLAI Robotics未来 动力 "公众号 如果你还在为高昂的机器人价格而犹豫不决,或者一直在忍受"无法协同、不够智能"的机器人痛点,今天VLAI Robotics给你带来了真正的突破——X系列双臂人形 机器人,价格仅售 1.98万元起! 产品级价格,科研级性能,让具身智能触手可得! 三大核心突破,重新定义双臂机器人! 超高灵活性,精准还原人类动作 :X系列"人尺度"为核心设计理念,单臂搭载 7 个基础运动自由度与 1 个夹爪控制自由度,总自由度达 8 DOF,双臂协同更是实现 16 DOF 全维度灵活操控,从肩部的自然舒展、肘部的精准弯折到腕部的灵活旋转,每一处动作都 完美还原人类上肢的自然运动轨迹 。基础版双臂可稳定承载 8kg 重物,Air 及以上版本直接将负载能力升级至 12kg ,在保持轻量化设计带来的灵活优势之余,更能精准完成各类 高精度抓取 、复杂操作任务,实用价值拉满! 仿生学技术,解决传统机器人僵硬问题 :X系列双臂机器人凭借前沿仿生运动学建模与高顺应性控制策略,实现了类人运动的自然复刻,能始终维持高精度控制, 为 远程操控、模仿学习与人机交互研究 提供核心基础 ...
正式开始学习!使用低成本机械臂复现pi0和pi0.5~
具身智能之心· 2026-01-06 08:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近看到了很多HR的职位需求,list很长,但VLA算法是很"急需"。这一点,也体现在论文数量上。每天带着很多 小朋友看论文,也几乎都和VLA"挂钩"。 ❝ 但VLA貌似"很伤",不好调,数据采集麻烦。这个事情,是很多同学持续在吐槽的。 只看论文而没有真机实验,在仿真里面做了好久,也不知道动起来啥样子。确实,具身和其它领域都有所不同,太 注重本体,即使是算法也极其依赖硬件。 ❝ 不少同学说,相当多的时间"浪费"在踩坑上了。 确实,真实数据采集上,需要借助硬件完成,比如遥操、VR、全身动补等方式。仿真和互联网数据,在泛化性能上 依然得不到保证,很多具身公司坚持"真机数据"路线。但真机数据采的数据并不好用,该怎么办?一轮下来又需要 好久。 模型优化上也很难顶,有的效果就是调不出,或者说训练不出效果。有些算法就是没效果,不知道怎么分析,真机 上一塌糊涂 ...
Vbot Lab:有生命力的具身智能“行为基础大模型”
具身智能之心· 2026-01-06 08:32
>> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 以下文章来源于具身纪元 ,作者Vbot算法团队 具身纪元 . 见证具身浪潮,书写智能新纪元 作者丨 Vbot算法团队 编辑丨 具身纪元 点击下方 卡片 ,关注" 具身智能之心 "公众号 现有的四足机器人为什么很难有生命力? 我们常见的机器狗,在用户面前展现的都是极限运动能力。 似乎缺少了那么一点点灵性。 其中一个原因是,传统的四足控制擅长单一任务的稳健执行,对多动作切换不友好。 主流做法是:一个动作一个策略——后空翻、跳高、作揖各自单独训练和调参,动作之间的自然衔接就是无人关注的角落了。 这样一来,在大家看这些动作时,就像是看一个个不太连贯的镜头剪辑。 而对于在真实环境里与人一起活动的场景(而不是观看机器人表演的场景)来说,用户更在意的是一起活动的连续性和稳定性,而不是某一个单项动作的极限指标。 单一动作模式让机器人具备了执行指令的功能,却失去了生物体应有的灵性,导致动作转换生硬,难以展现出连续、流畅且富有情感表达力的复杂行为。 打造一个有灵性的具身智能,才是 ...
空间智能终极挑战MMSI-Video-Bench来了
具身智能之心· 2026-01-06 08:32
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 "通用型智能助手" 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依 赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。 要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信 息做出合理决策,与环境产生有效交互。 为此, 上海人工 智能 实 验室 Inter nRobotics 团队 近日推出了一套 全面而硬核的空间智能视频基准 —— MMSI-Video-Bench ,对当前主流多模态大模型精心打 造了一场挑战系数极高的 "空间智能大考"。 本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、 ...
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能领域,机器人操纵作为核心难题,随着视觉、语言及多模态学习的飞速发展迎来变革。大型基础模型的出现,大幅提升了机器人的感知与语义表征能 力,使其能在非结构化环境中基于自然语言指令完成任务。由西安交通大学、香港科技大学(广州)等多所高校联合撰写的综述,以 "高层规划 + 低层控制" 的统一 框架,系统梳理了基于学习的机器人操纵方法,明确了当前技术瓶颈与未来方向,为该领域的研究提供了全面且结构化的参考。 论文名称:Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives 论文链接:https://arxiv.org/pdf/2512.22983 项目链接:https://github.com/BaiShuangha ...
多家具身公司正在推进IPO......
具身智能之心· 2026-01-05 17:28
2025年11月15日,宇树科技IPO上市辅导工作完成,公告显示,宇树科技拟申请在境内IPO。中国证监会官网 的这一信息。 2)银河通用 2025年12月,多个媒体报道银河通用完成股改,开始筹赴港上市。 最近社区分享了几家正在IPO进程的公司,都在大考,还有许多公司正在排队准备了。这里为大家整理了下相 关内容,本次整理参考各类已经公开的内容,若有不足欢迎后台指正。 1)宇树科技 3)智元机器人 智元机器人于2025年3月完成股改,11月宣布拟赴港IPO。 2025年7月通过其持股平台计划收购科创板上市公司上纬新材63.62%的股份,被市场解读为"借壳上市"的关键 落子。尽管智元对外回应称"本次行动仅为收购控股权,不构成《重大资产重组办法》所定义的借壳上市", 但这一动作被业界视为加速上市进程的重要举措。 4)乐聚机器人 1)持续的直播分享 社区为大家准备了很多圆桌论坛、直播,从本体、数据到算法,各类各样,逐步为大家分享具身行业究竟在 发生什么?还有哪些问题待解决。 2025年10月30日,乐聚智能(深圳)股份有限公司在深圳证监局完成上市辅导备案登记,辅导券商为东方证 券。 5)云深处 2025年12月23日, ...
网传某头部具身公司上市“绿色通道”被叫停,当事人正式回应......
具身智能之心· 2026-01-05 11:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 转载丨澎湃新闻 本文只做学术分享,如有侵权,联系删文 宇树科技于2025年7月8日提交了辅导备案登记材料,由中信证券担任辅导机构; >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 近日,某媒体发布宇树科技上市相关报道,涉及"所谓绿色通道被叫停",并被众多媒体、网络平台及自媒体大规模转载。 昨日,宇树科技正式向相关新闻媒体回应。该报道涉及我司上市工作相关动态情况的内容与事实情况不符,我司未涉及申请"绿色通道"相关事宜。 相关报道误导公众认知,已严重侵害我司合法权益。我司已向主管部门反映,同时督促相关方撤回不实报道。我司在此严正声明,后续将保留通过法律手段追责的 权利。宇树科技表示,目前,公司上市工作正常推进,相关进展将依法依规进行披露,感谢社会各界对公司的关心与支持。 4日早些时候,有报道称,宇树科技A股上市的绿色通道被叫停,但常规上市流程仍继续,被叫停或是因为"目前机器人赛道泡沫太大了",管理层希望能降降温。 随后,一张疑似宇树科技创始人、董事长王兴兴 ...
全职/兼职/实习!具身智能之心招募运营、编辑和销售的同学了
具身智能之心· 2026-01-05 11:30
公司业务与平台定位 - 公司运营“具身智能之心”平台,该平台是具身智能领域的技术创作平台,为行业输出前沿技术、课程、行业概况、融资、产品及政策等内容 [1] - 平台目前正处于业务上升期 [1] 公司招聘需求 - 公司面向粉丝群体招募全职及实习岗位,岗位包括编辑、运营和销售 [1] - 编辑岗位负责公众号平台的内容创作与编辑,要求应聘者具备专业基础及在知乎、公众号等内容平台的经验 [1] - 销售岗位负责平台课程、硬件等产品的销售推广,要求应聘者具备销售基础,并对具身智能用户需求与市场有一定了解 [2] - 运营岗位负责公众号、小红书、社群等渠道的运营,旨在提升粉丝粘性和关注度,要求应聘者具备运营能力并对自媒体平台玩法有认识 [3] - 实习岗位中,除编辑岗外均需线下工作 [1] 行业与平台内容 - 平台专注于具身智能领域,其产出内容涵盖该领域的前沿技术、课程、行业概况、融资动态、产品信息及政策解读 [1]
王鹤团队最新!解决VLA 模型缺乏精准几何信息的问题
具身智能之心· 2026-01-05 09:03
文章核心观点 - StereoVLA模型通过创新性地融合立体视觉的几何线索与语义理解,系统性解决了现有视觉-语言-动作模型在空间感知精度上的核心不足,为机器人高精度操纵提供了全新解决方案 [1] 问题根源:VLA模型空间感知的挑战 - **单模态视觉局限**:现有方案如手腕相机视野有限且易遮挡,深度传感器对透明或镜面物体噪声大,多相机配置则增加硬件复杂度且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**:立体视觉能提供丰富空间线索,但现有VLA模型缺乏有效机制融合几何信息与语义理解,直接输入立体图像会因视角细微差异导致性能次优 [6] 方案设计:StereoVLA的三层技术架构 - **第一层:特征提取模块** - 几何特征提取:基于FoundationStereo预训练模型,提取过滤后的代价体积作为几何特征源,通过注意力混合代价过滤模块捕捉长程空间关联,无需额外深度估计计算 [12] - 语义特征提取:利用SigLIP和DINOv2模型仅对左视角图像进行处理,获取富含语义的视觉令牌,以解决立体视觉模型语义信息不足的问题 [12] - 特征融合策略:通过空间池化统一分辨率,采用通道维度拼接方式融合几何与语义特征,生成兼具几何精度与语义丰富度的混合特征表示 [12] - **第二层:辅助训练任务** - 聚焦交互区域:将采样范围限制在通过物体2D边界框定位的夹持器与目标物体交互区域,引导模型关注关键空间细节 [12] - 度量深度预测:基于合成数据集的真实深度标签,训练模型预测交互区域内采样点的度量深度,以提升操纵精度并加速模型收敛,且不增加推理计算负担 [12] - **第三层:大规模数据支撑** - 合成数据生成:利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列,渲染立体图像对,相机参数在真实Zed Mini相机参数的5%范围内随机化 [12] - 语义增强数据:融入互联网规模接地数据集GRIT,新增2D边界框预测辅助任务以提升模型语义接地能力 [12] - 数据多样性设计:生成三种不同随机化范围的数据集,覆盖15×10×15cm至150×50×60cm的空间变化,以验证相机姿态鲁棒性 [12] 验证逻辑:全面性能验证 - **核心任务性能突破** - 通用操纵任务:在常见物体抓取/放置、立方体堆叠等任务中,成功率较基线模型提升明显 [13] - 条形物体抓取:针对0°、45°、90°三种朝向的条形物体,实现近完美抓取成功率,解决了长轴视觉重叠导致的定位难题 [13] - 中小尺寸物体抓取:在1-2cm小型物体抓取任务中,以30.0%的成功率成为唯一有效模型,其他基线模型完全失败 [13] - **相机配置对比** - 在四种主流相机配置对比中,StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著,较其他配置降低了相机姿态变化对操纵的影响 [17] - 相比前+侧面相机配置,StereoVLA在大姿态随机化场景下成功率提升157%,且部署更简洁,无需多相机校准 [17] - **核心模块消融验证** - 几何特征选择:过滤后的代价体积表现最优,较相关体积加语义特征的组合,成功率从54.0%提升至77.0% [15][18] - 语义特征作用:缺失语义特征时,模型抓取错误物体的概率显著增加,成功率平均下降20%以上 [15][18] - 深度估计策略:交互区域深度估计较全图像均匀采样,成功率提升18%,且避免了背景信息干扰 [18] 局限与未来方向 - 图像分辨率限制:当前224×224分辨率对1-2cm小型物体的语义接地与定位精度不足,需在高分辨率与计算成本间寻求平衡 [18] - 长时程依赖缺失:当前模型未捕捉长时程时间依赖,难以应对复杂连续操纵任务 [18] - 多机器人适配:验证仅基于Franka机械臂,未来需扩展至人形机器人等多具身化场景 [18] - 特征提取优化:可探索更多立体视觉基础模型的适配,以进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - 该模型的核心贡献在于首次将立体视觉系统融入VLA模型,并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破,以及对相机姿态变化的强鲁棒性,为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑 [16]