具身智能之心
搜索文档
MBZUAI 机器人实验室招收2026 Fall 全奖博士生/访问研究生等
具身智能之心· 2025-09-23 08:03
文章核心观点 - 文章为一篇关于MBZUAI大学左星星博士领导的RCL实验室的招生宣传材料 旨在吸引对机器人学、3D计算机视觉和具身智能等领域有浓厚兴趣的研究生和访问学者 [1][2][3] 招生方向与要求 - 实验室主要研究方向包括机器人学、3D计算机视觉、混合现实、状态估计、基于学习的视觉-惯性SLAM、多传感器融合、强化学习、VLN/VLA、人形机器人-物体交互以及具身人工智能 [2] - 对申请者的核心要求是对机器人、混合现实或人工智能有浓厚兴趣 具备较强的数学基础和编程能力 并拥有自我管理能力、驱动力和严谨的科研态度 [3] - 博士申请者需有以主要作者身份在领域内顶级刊物发表论文的经历 具备机器人相关经验或竞赛经验者将获得额外考虑 [3] - 硕博研究生申请需提供托福或雅思成绩 实验室同时招收访问研究生和国内实习生 [3] 待遇与资源 - 博士生在免除学费外 可获得每年约42万元人民币的全额免税奖学金 [3] - 实验室提供免费往返机票、充足的GPU计算资源以及机器人、传感器等硬件资源 [3] - 访问研究生和国内实习生可获得工资 实验室也接受中国国家留学基金委资助的留学生 [3] - 实验室已下单购买大量机器人硬件 部分已到货使用 大部分将在2025年11月前运抵 [4] 申请流程与时间 - 2026年秋季入学的研究生申请系统于2025年9月1日开放 早期申请截止日期为2025年11月15日 晚期申请截止日期为2025年12月15日 建议在11月15日前完成申请 [6] - 访问研究生和国内实习生可全年申请 [6] - 申请者需先将英文简历、成绩单和代表论文发送至指定邮箱 实验室将择优组织考核面试 同时申请者必须在学校官方申请系统中提交完整材料 [7] - 邮件标题需注明"[Position]+[Name]+[Affiliation]" [8]
为什么 VLA 能叠毛巾,却测不准物体位姿?具身智能的 “空间感知” 补全是怎么做的?
具身智能之心· 2025-09-22 17:00
文章核心观点 - 文章介绍了一种名为OnePoseViaGen的颠覆性解决方案,旨在解决具身智能(如机器人)在现实世界中精准操作未知物体时面临的关键瓶颈——6D物体位姿估计 [2] - 该方法的核心创新在于,仅需单张参考图像,无需预先扫描的3D模型或多视角图像,即可通过单视图3D生成、粗精对齐和文本引导域随机化等技术,实现对未知物体的高精度6D位姿估计 [2] - 该方法在权威基准测试和真实机器人操作实验中均展现出显著优于现有主流方法的性能,为机器人从特定场景迈向开放世界交互提供了关键技术支撑 [2][31] 关键研究成果:OnePoseViaGen框架 - 该框架遵循递进逻辑,旨在解决单样本6D位姿估计的三大核心挑战:3D模型缺失、真实尺度与位姿校准、以及生成模型与真实图像的域差距 [5] - 任务定义为:基于单张RGB-D锚点图像和查询图像,估计物体的6D刚性变换(旋转和平移)并确定尺度因子,将生成的标准化模型校准到真实世界尺度 [7] 基于法向量引导的3D纹理网格生成 - 第一步解决“3D模型缺失”问题,基于改进的Hi3DGen模型,仅输入单张RGB-D锚点图像及其生成的法向量图,即可快速生成标准化的3D纹理模型,无需多视图或预训练模型 [8][9] 粗到精的尺度-位姿联合对齐 - 为解决生成的归一化模型与真实世界不匹配的问题,设计了两步对齐策略 [10] - **粗对齐**:通过多视图渲染、特征匹配和PnP算法,快速获得一个包含尺度模糊的初始位姿,并通过优化求解全局尺度因子 [12] - **精对齐**:基于粗对齐结果,采用改进的FoundationPose框架进行迭代优化,更新位姿并重新优化尺度,最终得到与真实世界尺度一致的3D模型及其精准位姿 [13] 文本引导的生成式域随机化 - 为解决单张锚点图像生成的模型缺乏外观多样性以及与真实图像的域差距问题,设计了文本引导的生成式域随机化策略 [14] - 以生成的3D模型和文本提示为输入,通过Trellis模型生成一系列结构一致但纹理多样的3D变体 [14] - 在随机条件下渲染这些变体构建大规模合成数据集,并用于微调位姿估计器,从而提升模型对遮挡、光照变化的鲁棒性 [14] 核心结果1:基准数据集验证 - **YCBInEOAT数据集**:OnePoseViaGen的平均ADD指标达81.27%,平均ADD-S指标达93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)、Gedi(ADD 7.7%)和Any6D(ADD 45.6%)等主流方法 [17] - 在高挑战场景下优势显著,例如在“sugar box1”物体上,Any6D的ADD仅14.3%,而OnePoseViaGen达到75.63%;在“tomato soup can yalehand0”上,Any6D完全失效(ADD 0.0%),而OnePoseViaGen达到77.72% [17][19] - **TOYL数据集**:在复杂光照与远距离挑战下,OnePoseViaGen的AR指标达到55.7%,比次优的Any6D(43.3%)高12.4个百分点;其MSSD、MSPD、VSD等距离类指标也全面领先 [18] - **LM-O数据集**:在高遮挡无纹理的挑战性场景中,OnePoseViaGen的整体AR指标达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%) [20] - 定性结果显示,即使在物体被严重遮挡的情况下,估计的位姿轮廓仍与真实物体边缘高度重合,验证了其强大的抗遮挡能力 [22] 核心结果2:真实机器人操作验证 - 在真实机器人抓取与放置任务中,OnePoseViaGen指导下的整体成功率高达73.3%,远超基线方法SRT3D(6.7%)和DeepAC(16.7%) [24][25] - 实验涉及15种物体,任务要求抓取稳定、运输无碰撞且放置后稳定,证明了该方法的落地实用性 [23] - 定性结果显示,生成的3D模型与真实物体高度一致,估计的位姿能精准指导机械臂抓取,即使存在手部遮挡也能通过几何约束保持估计精度 [27] 核心结果3:消融实验 - 消融实验验证了“粗到精对齐”和“生成式域随机化微调”两大核心模块的必要性 [28] - 在TOYL数据集上,完整模型的AR为55.7%,移除精对齐模块后AR降至32.9%,同时移除粗精对齐模块后AR降至0.0%,证明了逐步对齐策略的关键作用 [30] - 使用多样化纹理微调后的模型AR为52.4%,而未使用微调或使用朴素微调的模型AR分别仅为12.6%和11.4%,证明了文本引导的生成式域随机化是提升方法鲁棒性的关键 [30]
具身方向适合去工作还是读博?
具身智能之心· 2025-09-22 12:00
具身智能行业现状与人才需求 - 行业存在真实需求与人才能力错配问题 许多从业者仅具备仿真环境和开源数据集经验 缺乏硬件、数据和算法的综合能力 难以胜任实际岗位 [1] - 具备扎实基础的从业者通常来自拥有多机器人本体的实验室 在硬件、数据、算法方面均有深厚积累 [1] - 行业对"开拓者"角色有强烈需求 要求具备从0到1的思维能力与解决问题能力 能够独立探索并忍受反复试错 [1] 具身智能技术社区生态 - "具身智能之心知识星球"是国内首个具身全栈技术社区 集视频、图文、学习路线、问答、求职交流为一体 目前拥有近2000名成员 目标2年内达到近万人规模 [2][4] - 社区覆盖产业、学术、求职、问答等多个领域 形成闭环生态 提供前沿研究解决思路和岗位对接服务 [4] - 社区成员来自斯坦福大学、清华大学等国内外知名高校以及智元机器人、优必选等头部公司 具备高端人才聚集效应 [14] 行业技术研究热点与资源 - 社区梳理近30+技术路线 涵盖VLA模型、机器人仿真、数据采集、大模型规划推理等核心领域 [4][5] - 汇总40+开源项目、60+数据集及主流仿真平台 提供强化学习、VLN、VA/VLA等全方位学习路线 [14] - 技术讨论聚焦VLA+RL融合、sim2real迁移、分层决策等前沿课题 反映行业当前技术攻关方向 [5][38][40] 产业资源与就业支持 - 社区与多家具身公司建立内推机制 提供星海图、银河通用等头部企业岗位对接 [6][14] - 汇总国内外40+具身机器人公司 覆盖教育、工业、医疗等多个应用方向 [19] - 提供行业研报、零部件品牌、开源项目等产业资源 助力从业者把握市场动态与技术趋势 [21][26][28]
IGL-Nav:基于增量式3D高斯定位的图像目标导航(ICCV'25)
具身智能之心· 2025-09-22 08:03
作者丨 Wenxuan Guo等 编辑丨视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 主要贡献 研究背景 图像目标导航任务要求智能体在未知环境中导航到由图像指定的位置和朝向,这对于智能体理解空间信息以及基于过往观测探索场景的能力提出了很高要求。 提出了 IGL-Nav 框架,通过增量式更新3D高斯表示(3DGS),实现了高效的3D感知图像目标导航,显著优于现有方法。 设计了 粗粒度到细粒度 的目标定位策略,先利用几何信息进行离散空间匹配实现粗粒度定位,再通过可微渲染优化求解精确定位,有效解决了6自由度相机姿态估 计的复杂搜索空间问题。 IGL-Nav能够处理更具挑战性的 自由视角图像 目标设置,并可部署在真实机器人平台上,使用手机拍摄的任意姿态目标图像引导机器人导航。 传统方法或依赖端到端的强化学习,或基于模块化策略使用拓扑图或鸟瞰图作为记忆,但都无法充分建模已探索3D环境与目标图像之间的几何关系。 近期虽有基于可渲染神经辐射图(如RN ...
当机器人学会 “模仿” 人类:RynnVLA-001 如何突破操作数据稀缺困境?
具身智能之心· 2025-09-22 08:03
文章核心观点 - 阿里巴巴达摩院团队提出新型视觉-语言-动作模型RynnVLA-001,旨在解决机器人操作领域大规模高质量数据稀缺的核心难题 [1] - 该模型创新性地利用1200万条以自我为中心的人类操作视频进行两阶段预训练,成功将人类演示技能迁移至机器人操作任务 [1] - 在LeRobot SO100机械臂的实验中,模型在多项操作任务中平均成功率高达90.6%,在含干扰物的复杂场景中仍保持91.7%的高成功率,性能显著超越GR00T N1.5和Pi0等主流基线模型 [2][15][18] 研究背景与问题 - 视觉-语言-动作模型的发展受限于机器人操作数据的稀缺,传统数据采集方法依赖人类远程操控实体设备,成本高昂且效率低下 [5] - 现有解决方案,如构建大规模机器人数据集或利用预训练生成模型,均未能有效弥合视觉预测与机器人动作控制之间的差距 [5] 模型创新与方法论 - 提出两阶段预训练框架:第一阶段进行以自我为中心的视频生成预训练,学习人类操作的视觉动态;第二阶段进行以人类为中心的轨迹感知建模,关联视觉预测与动作生成 [6][9][10] - 引入ActionVAE模块,将动作序列压缩为紧凑的潜在嵌入,降低模型输出空间复杂度,并保证预测动作的平滑性和时间连贯性 [6][13] - 构建大规模数据筛选流程,从网络资源中筛选出1200万条高质量人类操作视频用于模型训练 [6] 实验结果与性能对比 - 在拾取放置绿色方块、草莓抓取、钢笔入架三项任务中,RynnVLA-001的成功率分别为90.0%、91.7%和90.0%,平均成功率达90.6%,显著高于GR00T N1.5的55.6%和Pi0的70.4% [15] - 在单目标操作、多目标操作和含干扰物的指令跟随三种场景下,模型成功率分别为93.3%、86.7%和91.7%,展现出强大的指令跟随与抗干扰能力,性能稳定性优于对比模型 [18] - 消融实验证实两阶段预训练的有效性,完整模型性能最优,表明预测人类轨迹的能力能有效弥合视觉与动作间的鸿沟 [19][20][21] 技术细节与组件分析 - 模型采用双摄像头输入策略:前置摄像头负责物体粗定位与3D场景信息获取,手腕摄像头负责精细局部调整 [29][30][34] - 在Calvin基准上的消融实验显示,使用384×384图像分辨率、预测ActionVAE嵌入以及采用单一线性层动作头的模型配置性能最佳 [22][23][24][25] - 推理时,模型输出动作嵌入由ActionVAE解码器生成可执行的机器人动作序列,实现闭环控制 [16]
小扎把马斯克机器人一号位挖走了
具身智能之心· 2025-09-22 08:03
核心人才流动 - Optimus AI团队负责人Ashish Kumar决定离开特斯拉,加入Meta担任研究科学家 [1] - Ashish Kumar为UC伯克利博士,导师是Jitendra Malik教授,2023年7月以ML科学家身份加入特斯拉,一年多后成为擎天柱AI负责人 [6] - 今年6月,Optimus项目负责人Milan Kovac宣布离职,其为特斯拉9年老将,曾领导团队将人形机器人从概念发展为功能齐全的第二代双足机器人 [7][10][12] 特斯拉机器人业务战略 - 特斯拉未来80%的价值将来自Optimus [14] - 团队致力于推进可扩展方法,用强化学习取代传统技术栈,并通过视频学习提升机器人灵巧度 [3] - 人工智能被视为解锁人形机器人的最关键因素 [4] 公司内部管理动态 - xAI的几位高管在与马斯克的两位亲密顾问Jared Birchall和John Herin发生冲突后离职,部分高管对顾问缺乏正式指挥链的管理方式表示反对 [16][17][18] - 马斯克作为xAI首席执行官负责做出最终决策 [17]
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 08:03
核心观点 - 研究团队提出PhysicalAgent框架,旨在解决机器人操控领域的两大瓶颈:主流视觉-语言-动作模型依赖任务与平台特定微调导致跨平台鲁棒性差,以及基于世界模型的方法通用性受限 [2] - 该框架的核心思路是使用基础模型承担感知与推理的重任,仅保留轻量级机器人适配层负责执行,以实现跨形态、跨任务的通用操控,并通过迭代修正提升执行鲁棒性 [2] 架构设计:泛化性的核心逻辑 - 框架设计原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型,此设计计算开销小且数据需求低 [3] - 视频生成模型具有天然优势,因其预训练了海量多模态数据,隐含对物理过程的理解,且支持API调用无需本地训练即可快速集成 [5] - 视频生成模型能通过文本指令生成执行过程的视觉想象,与人类思考动作的方式一致,无需了解机器人内部结构 [5] - 同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频,无需针对特定机器人重新训练,证明了架构的跨形态适配能力 [5] 视觉语言模型的作用 - 视觉语言模型作为框架的认知核心,通过多次调用实现指令-环境-执行的接地,而非单次规划 [6] - 其具体作用分为四步:接收指令与场景图像后分解高level任务为原子子任务;为每个子任务生成带约束的文本提示;每次执行后对比图像判断子任务完成情况并输出决策;框架不绑定特定视觉语言模型,具有模型无关性 [10] 扩散基世界模型:动作生成的新范式 - 核心创新是将动作生成为条件视频合成,而非直接学习控制策略 [6] - 使用现成的图像-视频基础模型,输入机器人当前相机帧与文本指令,生成物理合理的短动作视频 [10] - 对比现有方法,该框架直接使用通用图像-视频模型,无需为特定机器人-场景对训练模型,大幅降低泛化门槛 [10] - 具有三大优势:降低新机器人部署成本;可快速迭代替换更优模型;生成视频可被人类检查以提升安全性 [10] 机器人适配层:从视频到电机指令的落地 - 生成的动作视频需转化为机器人能执行的电机指令,此部分是框架中唯一需机器人特定适配的部分 [6] - 流程包括用微调后的模型从合成视频每帧中提取机器人关节关键点,形成40维特征向量/帧;再用多输出回归器将特征映射为低level电机指令 [11] - 每个新机器人仅需约1000个样本,30分钟即可收集完成训练数据 [11] 实验验证:效果与泛化性 - 实验分为两类,分别验证跨形态/感知模态的泛化性与迭代执行的鲁棒性 [8] - 在形态与感知模态研究中,框架的成功率显著优于基线,验证了扩散视频生成思路的有效性;平台对性能无显著影响,说明框架跨形态泛化能力稳定 [14] - 在物理机器人的迭代执行实验中,双臂UR3和Unitree G1人形机器人的最终成功率均达到80%,首次尝试成功率分别为30%和20%,成功所需平均迭代次数分别为2.25次和2.75次 [13][16] - 迭代修正能有效弥补首次执行的不足,前3次迭代后未完成任务比例骤降,是提升鲁棒性的核心 [16]
合伙人招募!和我们一起运营这个具身社区吧~
具身智能之心· 2025-09-21 18:00
公司定位与发展愿景 - 公司从技术分享起步,现已发展成模块完善的社区,致力于超越媒体角色,成为为具身智能行业创造价值的平台[1] - 公司认识到少数人力量有限,因此公开邀请具身智能领域有影响力的人士进行多方位合作,共同推动行业发展[1] 具体合作方向 - 课程开发:合作搭建面向初学者、企业培训和高校学科建设的课程体系,以推动行业向前发展[2][3] - 硬件研发:合作搭建高性价比、易用的具身智能科研平台,旨在降低开发者和初学者的使用门槛与成本[3][4] - 开源项目:合作搭建具备全球影响力的开源项目[5][6] - 咨询服务:合作承接面向企业和个人的具身智能数据、本体、算法及部署等领域的咨询,以助力产业升级和人才发展[7][8] 合作者要求与待遇 - 公司对合作者的要求是具备一定的领域工程经验,或拥有博士及以上学位并发表过顶级会议论文[9][10] - 合作形式灵活,全职或兼职均可[10] - 公司提供行业内有竞争力的报酬,并承诺保护个人隐私,同时合作者将能共享公司的行业资源[9][10]
灵御智能遥操TeleAvatar机器人开始交付啦!
具身智能之心· 2025-09-21 12:01
公司商业化进展 - 公司宣布进行具身智能遥操作机器人TeleAvatar的首批多客户交付,标志着产品商业化及市场拓展取得实质性突破 [2] - 首台TeleAvatar(型号001)正式交付锡港沪机器人灵巧智能研究院,同时进行对多家战略客户的首批陆续交付 [2] - 在当日下午进行了首批多台机器人的陆续交付,涵盖包括上海玑域智能科技公司在内的多个重要战略客户,未来数周内将陆续交付十余台机器人 [5] 产品技术与性能 - TeleAvatar是公司自主研发的具身智能遥操作机器人,集成了高精度运动控制、多模态感知融合、低延迟遥操作等核心技术 [5] - 产品具备亚毫米级操作精度,达到国际领先水平,端到端操作延迟低于30毫秒,确保操作实时性 [6] - 产品支持全远程环境交互能力,可实现跨城市跨区域全远程操作,双臂及灵巧末端支持全力控设计,可适应多种复杂操作 [6] - 产品起售价仅7.99万元,具备极高性价比 [6] 客户评价与应用前景 - 锡港沪机器人灵巧智能研究院技术总监许钦桓博士表示,TeleAvatar机器人实现了低延迟、高精度控制与柔顺力控,为落地灵巧操作研究提供了坚实基础 [5] - 上海玑域智能有限公司创始人孙宇先生认为,类人机器人在保障性能的同时兼顾成本控制,以出色的整体投入产出比为大规模部署提供了可行路径 [5] - TeleAvatar的应用领域涵盖科研数采、智能制造、医疗服务、科研探索、应急处理等多个重要行业,为各行业转型升级提供技术支撑 [7] 公司背景与使命 - 公司由清华大学自动化系顶尖团队创立,深耕机器人规划控制与人机交互领域 [10] - 公司使命为打造具身智能实用化标杆,将人类从危险、繁重、无聊的工作中解放出来 [10] - 公司通过人机混合智能技术构建L0-L4全栈进化路径,提供硬件、软件、数据平台全自研解决方案,配合自身L2级机器人自主模型策略,实现人机无缝协作 [10]
具身领域的大模型基础部分,都在这里了......
具身智能之心· 2025-09-21 00:03
社区定位与目标 - 社区旨在打造集视频、图文、学习路线、问答、求职交流为一体的综合类大模型技术社区,为初学者和进阶者提供交流与技术分享平台 [1] - 社区目标是成为大模型前沿技术聚集地,汇集来自国内外知名高校实验室及头部公司的嘉宾,高校包括上交、清华、北京大学等,公司包括阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等 [3][68] 核心学习路线与内容 - 社区汇总了大模型全栈学习路线图,核心领域包括RAG、AI Agent和多模态大模型 [3] - RAG学习路线细分为Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等8个子领域 [3][9][10][12][14][16][18][20][22][23][24] - AI Agent学习路线涵盖前沿综述、评测、强化学习、多模态Agent、Agent通讯等7个子领域 [25][26][28][30][32][34][35][37][39][41] - 多模态大模型训练路线包括开源数据集、MLLM、VLM、大模型微调、RLHF、MoE等9个技术方向 [42][43][45][47][49][51][53][55][56][57][59] - 社区扩展了大模型量化、部署及推理相关内容,以满足成员部署自有模型的需求 [61][62][63][64] 社区资源与福利 - 社区已邀请40余位学术界和工业界专家,来自国内外知名高校和头部公司 [68] - 成员福利包括第一时间掌握学术进展与工业应用、与行业大佬交流工作与求职问题、获得大模型相关岗位推荐及投资与项目对接机会 [7][70] - 未来计划不定期邀请行业大佬进行直播分享,内容可反复观看,旨在邀请国内外顶尖学术界和工业界专家 [66]