具身智能之心
搜索文档
GEN-0 以及后续的 VLA 发展的看法
具身智能之心· 2025-11-21 08:04
作者丨 阿汐猫猫 原文链接 | https://zhuanlan.zhihu.com/p/1970094649956868665 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你 想要的! 文章转载自博客,见 https://axi404.top/blog/embodied-talk-3 前言 最近 GEN-0[1] 的发布对于具身智能领域可以说是轰动性的。Manipulation 作为 Robotics 领域一直以来皇冠上 的明珠,并且作为具身智能带来现实生产力必不可少的一环,一向以泛化的困难性著称。由于缺乏实际的使 用场景,缺乏数据飞轮导致的数据匮乏使得模型的预训练难以 scaling up,而模型高度依赖后训练的数据。 在此之前,领域内最具代表性的工作莫过于 Pi 系列[2][3],在 Pi dataset 私有数据集上进行预训练。其结果是 显著的,使用此类预训练之后,带来了模型后训练时的性能提升。从实际部署中,Pi 不同于若干号称反超自 己的模型,在动作连贯性 ...
分割一切并不够,还要3D重建一切,SAM 3D来了
具身智能之心· 2025-11-21 08:04
更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 沉默后爆发? 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 深夜,Meta 有了重大更新,接连上线 SAM 3D、SAM 3(Segment Anything Model,SAM)。 其中,SAM 3D 是 SAM 系列的最新成员,它将人们对图像的 3D 理解带入通俗易懂的世界,其包含两个模型: 这两个模型都具备强大且稳定的 SOTA(业界领先)性能,能够将静态的 2D 图像转化为细致的 3D 重建结果。 SAM 3D Objects:支持物体与场景重建 SAM 3D Body:专注于人体形状与姿态估计 SAM 3 可通过文本、示例和视觉提示,对图像和视频中的物体进行检测、分割与跟踪。 作为本次发布的一部分,Meta 同步开放了 SAM 3D、SAM 3 的模型权重与推理代码。 此外,Meta 还推出了一个全新平台 Segment Anything Playground,通过该平台,用户能轻松体验 SAM 3D、SAM 3 的能力。 接下 ...
VLA+RL方向的同学可以看过来了~
具身智能之心· 2025-11-21 08:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 最近收到社区内很多同学关于VLA和RL相关内容的咨询,也希望具身智能之心能够有更深入的讲解。在 此,我们向全平台粉丝招募VLA+RL方向的课程&项目辅导老师,和我们一起输出最有料的内容。 具身智能之心是国内首个具身全栈技术交流社区,聚集了大量VLA和RL相关方向的同学。 我们将提供高于行业平均水平的薪酬以及丰富的行业资源。 详细内容欢迎添加微信:oooops-life咨询。 一些要求 需是VLA+RL的研究方向,学术界我们希望是博士及以上(包含在读),手握相关方向的顶会。工业界希 望您有一定的实战经验和真机调试经验。 待遇说明 ...
南洋理工大学提出NORA-1.5:一种基于世界模型与动作奖励的VLA模型
具身智能之心· 2025-11-21 08:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chia-YuHung等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 南洋理工大学等研究单位提出NORA-1.5 通过集成流匹配动作专家与奖励驱动的直接偏好优化(DPO)后训练,解决了现有视觉-语言-动作(VLA)模型泛化性和 可靠性不足的问题,在仿真与真实机器人场景中均实现了当前最优性能。 核心定位与解决的关键问题 架构设计:流匹配与 VLA backbone的协同优化 VLA backbone基础 论文标题 :NORA-1.5:AVision-Language-ActionModelTrainedusingWorldModel andAction-basedPreferenceRewards 论文链接 :https://arxiv.org/pdf/2511.14659 ProjectPage :https://declare-lab.github.io/nora-1.5 Code ...
坚持“具身大脑”与“人形本体”软硬⼀体!这家具身公司再获10亿融资
具身智能之心· 2025-11-20 18:52
融资与战略合作 - 公司于2025年11月20日完成近10亿元A+轮融资,由吉利资本领投,北汽产投战略投资,北京市人工智能产业投资基金及北京机器人产业发展投资基金联合注资 [1] - 融资将用于支持端到端VLA具身大模型ERA-42的技术迭代及落地应用,吉利资本和北汽产投的加入为产业应用打开战略协同空间 [1] - 公司坚持“具身大脑”与“人形本体”软硬一体全栈自研,致力于打造通用大脑及通用机器人 [1] 商业化进展与市场布局 - 公司2025年商业化高速增长,总订单额突破5亿元,物流行业最大单笔订单金额近5000万元 [2][3] - 业务形成“国内深耕+海外拓展”格局,海外业务收入占比达50% [3] - 全球TOP10市值科技巨头中有9家是公司客户,并与吉利、雷诺、顺丰、TCL、海尔、联想、世纪金源等企业达成深度合作 [3] - 海外业务覆盖北美、欧洲、中东、日韩,并成为SKILD AI、字节跳动、MIT、Stanford、清华、北大等全球顶尖机构的首选 [3] 核心技术:具身大脑ERA-42 - ERA-42是实现全尺寸人形机器人全身及五指灵巧手精准控制的具身大模型,全球仅四家机构掌握该技术,公司是中国唯一代表 [6] - 2024年9月公司全球首提分频VLA,推出HiRT快慢分层架构,通过latent向量连接70亿参数世界模型与4000万参数执行模型 [6] - 2024年12月发布全球首个融合世界模型的VLA算法框架VPP,将可用数据扩展至海量互联网视频数据 [6] - 2025年10月,清华与斯坦福团队联合提出可控生成世界模型“Ctrl-World”,将机器人在陌生场景的任务平均成功率提升44.7% [6] 应用场景与落地成效 - ERA-42已在物流、制造、商业服务等领域落地,形成“场景越丰富,模型越智能”的正向循环 [7] - 在物流领域可完成药品、日化品、包裹的分拣及扫码;在制造领域突破零部件抓取、高精度装配、质量检测等场景;在商业服务领域可完成客座清洁、物品递送、导游导览等任务 [7] - 部分应用场景效率当前达到70% [7] 硬件产品与研发能力 - 公司硬件自研比例超过95%,全栈自研关节模组、灵巧手、电机、减速器、控制器等,实现供应链垂直整合 [12] - 产品开发可像搭建乐高一样按月迭代,已推出覆盖科研、工业、服务领域的多款产品 [12] - 公司灵巧手以全直驱、利好强化学习的开发模式成为全球顶尖具身实验室论文标配,在2025年CoRL上多篇依托该灵巧手的学术成果被收录,并可操控100种工具 [13] - 全尺寸双足人形机器人星动L7是国内首个实现“大运动+巧操作”的机器人,在首届世界人形机器人运动大会夺得原地跳高冠军并创造跳远世界纪录,可担任供件员、分拣员、装配员及搬运工 [13] - 轮式服务机器人星动Q5已在海尔、卡萨帝、联想集团、世纪金源、大熊猫基地等企业及活动中投入应用,提供导览讲解、门店引流、商品介绍、快递等服务 [13]
港中文最新!无需微调即可部署VLA模型
具身智能之心· 2025-11-20 12:02
文章核心观点 - 提出一种名为VLA-Pilot的即插即用推理时策略引导方法,旨在解决预训练视觉语言动作模型在下游任务部署时出现的性能下降问题 [2] - 该方法无需额外微调或数据收集,即可实现预训练VLA模型的零样本部署,大幅降低了部署成本 [2] - VLA-Pilot通过结合多模态大型语言模型的开放世界推理能力和进化扩散算法的动作优化,提升了对多样化任务和机器人形态的稳健零样本泛化能力 [6] 现有问题分析 - 预训练VLA策略在下游部署过程中会出现显著的性能下降,而传统的微调方法依赖高昂的演示数据收集和密集型计算,在现实场景中不实用 [2] - 部署失败并不一定意味着预训练策略无法生成正确行为,而是由于运行时模式选择不当导致无法可靠执行 [4] - 现有的推理时引导方法存在局限性:其验证器需要额外训练且泛化能力有限,并且仅依赖从固定候选集中选择动作,在复杂任务中可能无法恢复成功行为 [5] 方法详解 - VLA-Pilot的核心是利用MLLM作为开放世界验证器以增强泛化能力,并采用进化扩散过程作为动作优化器以提高任务对齐度 [6] - 具身策略引导思维链模块将推理过程分解为四个交错阶段:引导目标确认、场景理解、具身增强和引导目标生成,最终输出非可微黑盒评分函数作为奖励 [11][12] - 进化扩散算法首先从预训练VLA策略采样动作候选,然后基于引导奖励迭代评估和变异候选集,通过结合扩散过程的多模态表达和进化搜索的黑盒优化来提升任务对齐度 [14][15][16][17] - 引入迭代引导优化机制实现闭环修正,通过反思步骤让MLLM作为自我批判者来优化引导奖励并生成引导成功指示器,提升引导精度和稳健性 [20][21] 实验对比分析 - 实验在双臂机器人系统上进行了评估,涵盖六个下游操作任务,包括四个简单单臂任务和两个复杂双臂操作任务,并设置了分布内和分布外两种场景 [23][26] - 在分布内任务中,VLA-Pilot结合DiVLA策略在整体任务上的平均操作成功率达到62%,显著高于基线方法DiVLA的31%和RDT-1B的30% [30] - 在分布外任务中,VLA-Pilot展现出稳健的泛化能力,整体平均成功率达到50%,远高于V-GPS的12%和FOREWARN的19% [31][32] - VLA-Pilot实现了与使用50个专家演示进行监督微调相当的性能,表明该方法能有效提取预训练模型中的潜在知识 [35]
从纯小白到具身算法工程师的打怪之路
具身智能之心· 2025-11-20 12:02
今天有个老学员,拿到了某头部的offer,自笑到从纯小白到算法工程师的打怪之路着实不简单,但真的有 门路。从自己购买so-100折腾,到后面跟着系统的路线一起学习,不仅节省了很多时间,也避免陷入了较 多的坑里。 这里也为大家推荐几个具身方向的研究路线:涉及vla、vln、diffusion policy、强化学习等。也欢迎扫码直 接学习: vla方向 VLA构成的机器人系统主要包括:视觉的感知处理模块,语言指令的理解以及生成机器人可执行动作的策 略网络。根据不同的需求,目前的VLA主要分为三类范式:显示端到到VLA,隐式端到端VLA以及分层端 到端VLA。 显示端到到VLA,是最常见最经典的范式。通常是将视觉语言信息压缩成联合的表征,然后再基于这个表 征去重新映射到动作空间,生成对应的动作。这类端到端的范式依赖于先前广泛的研究先验,通过不同架 构(diffusion/ transformer/dit),不同的模型大小,不同的应用场景(2d/3d),不同的任务需求(从头训/下 游微调),产生了各类不同的方案,取得了不错的性能。 隐式端到端VLA,则不同于前者,更加关注工作的可解释性,旨在利用当前的video d ...
世界第一「空间智能」引擎!苹果没做成的,95后博士拿下了
具身智能之心· 2025-11-20 08:03
编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 【导读】 2024年以来,从苹果Vision Pro将「空间计算」推向巅峰,到Peloton Guide、Nex Playground等「AI摄像头」硬件开始在小规模市场 中验证可行性,风口已然初现。 一个共识正在全球科技行业悄然形成:AI驱动的体感交互是下一个浪潮。 但一个根本性的矛盾也随之暴露:前者价格高昂,动辄数千美元,将普罗大众拒之门外;后者虽然价格稍低,却仍需用户购买专属的硬件盒子,本质上 没有摆脱「外设」的束缚。 市场在呼唤一个更轻、更普惠的解决方案。 当我们回归真实的居家娱乐场景时,会发现用户体验是极度「割裂」的。 要么是花重金买来的游戏主机,在短暂的新鲜感过后,最终难逃在角落里「吃灰」的命运;要么是面对主机里那些同质化严重、缺乏实时反馈的游戏内 容。 这是一个消费者极度渴望互动,却被高昂硬件和贫瘠内容双重束缚的市场。 在此背景下,一家名为「飞拓星驰」(下文简称「FitX」)的中国 ...
从零将π0.5部署到具身机械臂上!
具身智能之心· 2025-11-20 08:03
产品发布与定位 - 公司宣布支持pi0.5部署,相关代码将正式开源,旨在加速具身智能科研落地 [1][2] - Imeta-Y1是一款面向具身智能领域打造的轻量级高性价比机械臂,专为新手、学生、教育工作者及机器人领域初学者设计,旨在解决硬件选择中价格过高或低价产品难用、难上手的问题 [3] - 该产品定位为帮助用户低成本、高效率地完成算法验证与项目开发 [3] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集到模型部署的全过程,对新手友好 [4][20] - 支持Python与C++双语言接口,兼容ROS1与ROS2,并提供URDF模型,实现仿真与真机的无缝切换 [4][21][22] - 提供24小时快速售后响应,确保学习与开发过程顺畅 [4][22] - 产品融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [6] - 紧凑型结构与模块化接口使其特别适用于嵌入式AI与机器人学习平台的开发 [7] - 支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架,实现端到端的智能算法落地 [20][39] - 后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级 [22] 机械臂硬件规格 - 本体重量为4.2千克,额定负载为3千克,具有6个自由度 [9][22][23] - 工作半径为612.5毫米,重复定位精度为±0.1毫米 [9][22][23] - 供电电压为24V,控制器为PC,材质为铝合金(部分规格包含树脂) [9][22] - 通讯方式为CAN,控制方式支持轨迹跟踪、示教及API [9][22] - 各关节运动范围与最大速度均有详细规格,例如J1关节运动范围为-165°至165°,最大速度为180°/秒 [9][23] 仿真与开发支持 - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法并一键部署至物理设备,降低开发风险与调试成本 [20][25] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档,支持Python、C++等语言 [32][33] - 目前已开源适配的算法包括lerobot和ACT,robotwin、pi0等将逐步适配并开源给用户 [53] 售后服务与交付 - 产品交付周期为1至2周 [51] - 提供半年质保(非人为损坏),质保期后售后费用按市场价计算 [52] - 批量采购享有更多优惠,并支持基于本产品的项目开发与教学培训 [22]
解决特斯拉「监督稀疏」难题,用世界模型放大自动驾驶的Scaling Law
具身智能之心· 2025-11-20 08:03
文章核心观点 - 视觉语言动作模型在自动驾驶领域面临“监督稀疏”的核心挑战,即高维视觉输入与低维稀疏动作监督之间的不匹配,导致数据规模定律失效 [3][7] - 研究团队提出DriveVLA-W0方案,通过引入世界模型作为稠密的自监督信号,迫使模型学习环境动态规律,成功解锁并放大了数据规模定律 [10][11][17] - 该方案在7000万帧数据规模上验证有效,显著提升模型性能并降低推理延迟,为VLA模型的产业落地提供了新路径 [21][23][27] VLA模型的“监督赤字”问题 - 自动驾驶领域希望复现大语言模型的数据规模定律,但VLA模型面临“监督赤字”困境 [6][7] - 数十亿参数的VLA模型接收高维稠密视觉信息流,监督信号却是低维稀疏的驾驶动作,导致模型表征能力浪费,无法充分学习复杂环境动态 [7] - 实验证实,在稀疏动作监督下,VLA模型性能随数据量增加迅速饱和,数据规模定律效应大打折扣 [8] 世界模型的破解之道 - DriveVLA-W0方案创造性引入世界模型,将“预测未来图像”作为稠密自监督训练任务,替代依赖稀疏动作的传统方法 [10][11] - 预测下一帧完整视觉画面迫使模型学习世界真实运行规律,如车辆运动趋势、人车交互关系,提供比动作更丰富稠密的学习信号 [14][15] - 世界模型从根本上缓解了“监督赤字”问题,为模型提供了理解环境动态的必要监督 [15] 世界模型对数据规模定律的放大效应 - 研究核心贡献在于发现世界模型能显著“放大”数据规模定律,使模型性能随数据量增加实现持续显著提升 [17][23] - 在700K到70M的数据规模上,DriveVLA-W0性能提升斜率显著优于仅依赖动作监督的基线模型 [21] - 在70M帧规模下,世界模型使碰撞率降低20.4%,实现了单纯堆砌动作数据无法达到的质变 [24] 兼顾性能与效率的模型设计 - 针对VLA模型“高延迟”痛点,团队提出轻量级MoE“动作专家”架构,在不牺牲性能的前提下优化推理效率 [26] - 该设计显著降低模型推理延迟,仅为基线VLA模型的63.1%,为模型实时部署提供可能 [27]