Workflow
具身智能之心
icon
搜索文档
具身智能论文速递 | VLA、3DGS、扩散模型等、RoboBrain~
具身智能之心· 2025-07-06 19:58
点击下方 卡片 ,关注" 具身智能 之心 "公众号 ArtGS 上海交通大学联合上海AI Lab、新加坡国立大学、普林斯顿大学等团队IROS 2025中稿工作,本文提出ArtGS框架,通 过动态可微3D高斯溅射与视觉-物理闭环优化,显著提升关节目标建模与操作精度: 主要贡献: 算法框架: 1. 关节参数估计误差降低:在7类100个关节目标上,关节轴平均误差(AE)降至 4.27°~7.03°(比最优基线降低约 5°),关节原点误差(OE)降至 3.26~5.84 cm。 2. 操作成功率突破:在洗碗机、冰箱等任务中,成功率高达 62.4%~90.3%(比最优基线GAMMA提升最高33.5%)。 论文标题:ArtGS: 3D Gaussian Splatting for Interactive Visual-Physical Modeling and Manipulation of Articulated Objects 论文链接:https://arxiv.org/pdf/2507.02600 1. 提出 ArtGS 框架,通过整合静态 3D 高斯溅射(3DGS)重建与微调的视觉 - 语言模型(VLM),将物 ...
全球AI失业大逃杀:25年已裁94000人!微软高管:被裁可用AI管理情绪
具身智能之心· 2025-07-06 19:54
点击下方 卡片 ,关注" 具身智能之心 "公众号 编辑丨 新智元 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 灾难前兆,再一次预警。就在最近,微软又裁掉了9000人,最黑色幽默的是,Xbox一 位高管甚至建议被裁员工用AI来疗伤?虽然2025年才过了一半,但全美科技行业中已有94000人 被裁,接下来这个数字恐怕只会越来越多。 AI导致的全球失业潮,已经开始拉开帷幕。 灾难的号角,已经吹响了。 最近,微软又一次曝出新一轮的9000人大裁员,背后不知是多少人的血泪。 就在刚刚,国外一个媒体发布博文,总结出了最新统计数据—— 2025年才过了一半,AI已经取代了94000名科技工作者,导致他们直接失业! 你以为,这仅仅是像以前一样的成本节约措施吗? 不,这一次,或许跟以前都不一样。这一次,很多企业为了配合自己的AI战略,正在悄悄调整自己的 劳动力结构。 一方面,某些人类的岗位因为被AI替代,而直接消失;另一方面,很多职位被削减,目的就是为了企 业能有更多支出,流向AI工程、基础设施和研究。 ...
怎么在仿真里面让人形机器人、四足机械狗跑起来?
具身智能之心· 2025-07-06 19:54
具身机器人最重要的执行控制 然而足式机器人的控制与学习涉及的内容非常多,涉及运动学、动力学、多传感器融合、步态控制、强 化学习、模仿学习、仿真等方向,内容众多。很多小白根本不知道怎么入门,没有完整的学习体系,将 会处处踩坑,久久不能入门,导致最终放弃学习,错失了机会。为此,我们联合行业知名机器人专家, 出品了国内首门《从四足到双足的全栈算法》教程。旨在解决大家入门难,优化进阶难的问题!什么有 价值我们就教什么! 国内首个具身足式算法与实战课程 我们联合业内知名足式机器人专家展开了国内首个具身足式算法与实战教程! 本课程面向想要深入足式机器人领域的学习者,系统讲解从 四足 到 双足 再到更 高级算法 的全流程技 术栈。结合真实应用案例,配合仿真环境 (Isaac Gym/Gazebo/MuJoCo),课程核心内容如下: 说到具身智能机器人,无论是人形还是四足,都离不开的一个重要任务是步态控制,这也是迈向通用具 身必须要攻克的难关。机器人依靠双足或四足来完成空间上的移动,近20年来,工业界和学术界一直在 投入人力和物力对人形机器人的步态进行研究,力图更接近真实动物和人类的动作。在救援场景中,如 地震后的废墟、火灾 ...
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 19:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 19:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiahui Zhang等 以 OpenVLA 为代表的主流方法,仅使用 单帧 RGB 图像 + 文本指令 作为条件来拟合动作分布 。这 种极简输入导致目标分布呈现两类混乱: 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Teaser 在 VLA pretrain 中,单帧 RGB + 文本的传统输入往往缺失关键时空线索,导致坐标系混乱与状态模糊——即同 一观测下可能对应多种动作分布, 显著拉低预训练效率 。为破解这一瓶颈,我们提出 4D-VLA:通过将3D 空间 + 历史帧融入预训练输入,从而抑制混乱分布,提升模型在复杂场景中的performance。 Insight 如何从多源机器人数据中高效提取可迁移的运动知识 ,仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能,但 输入信息的不完整与不一致 严重削弱了预训 练的效果。 ...
具身什么时候可以交卷?哪些产品会率先落地?
具身智能之心· 2025-07-05 18:31
具身这个产业什么时候可以交卷呢?哪些产品会率先落地?2025年最火的莫过于人形机器人,也 是资本一直重点关注的本体。但产业落地,人形机器人能保证场景稳定部署吗?其实想一下,如 果一台人形机器人走路还不是很稳定,一旦摔倒、绊倒,会对本体有很大的伤害,在数据和算法 没有非常稳定前,B端和C端绝不敢大规模尝试。毕竟维修费用也是非常贵的,时间成本也比较 高,责任归属就有点说不清楚了。 相比之下,移动操作+机械臂反而更容易落地,比如银河通用的G1,在服务领域、家居、超市等场 景,表现出较好应用。 以及智元在工业领域应用的远征A2-W,较稳定的底盘能够保证较大的负载,保证工业施工的需 求。 除了本体,数据层面上亟需一个大规模数据来做基础模型的预训练。具体场景的数据采集效率和 质量也非常重要,这决定了是否可以上scale。sim2real方案解决了数据难采、数据贵的问题,但迁 移到真实场景如何保证性能也是领域非常关注的点,这个还在不断的去突破。 以上是我们在具身智能之心知识星球中的分享,更多干货欢迎扫码加入,和近200家具身公司、研 究机构成员一起交流! 星球内部整理了许多为小白入门的技术栈和路线。 已经从事相关研究的同学 ...
秋招快要开启了!哪里可以找到具身相关的面经和题目啊?
具身智能之心· 2025-07-05 17:42
AutoRobo知识星球概述 - 国内首个专注于自动驾驶、具身智能、机器人方向的求职社区 已运营3年多 近1000名成员 [1][3] - 成员涵盖地平线、理想汽车、华为、小米汽车、momenta、元戎启行等企业社招人员及2024-2025届校招生 [3] - 提供面试题库、行业研报、谈薪技巧、内推资源、简历优化等全链条求职服务 [3][26] 核心资源分类 招聘信息 - 实时更新算法、开发、产品等岗位 覆盖校招、社招、实习 信息直接来自合作企业第一手发布 [5] 自动驾驶领域题库 - 毫米波视觉融合/3D&4D毫米波雷达量产/车道线检测算法/BEV感知等10+专项"一百问"题库 [10] - 规划控制、多传感器标定、端到端自动驾驶等实战技术面试题库 [10][13] 具身智能领域题库 - 多模态3D检测/Cuda-TensorRT部署/Nerf应用/Diffusion Policy等15+细分方向面试题库 [11][13] - 涵盖VLA视觉语言导航、VLN视觉语言导航等前沿技术面试要点 [13] 行业研究支持 - 收录《世界机器人报告》《中国人形机器人发展蓝皮书》等权威研报 [16][17] - 提供具身智能创投报告、技术路线分析、产业链深度研究等决策参考 [16][17] 面经案例库 - 分类整理社招/校招/实习面经 覆盖滴滴、英伟达、美团等企业从技术面到HR面全流程 [20] - 包含自动驾驶SLAM算法、决策规划控制等岗位的成败案例分析 [19][20] 职业发展辅助 - 汇总机器人/自动驾驶/AI领域专业书籍与技能树图谱 [23][24] - 提供转行经验、面试官建议、岗位复盘等职业规划内容 [24] - 专项谈薪技巧与HR面应答策略库 [22][25] 服务价值 - 日均成本0.3元 可获取企业直推岗位与千人行业社群资源 [26]
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 10:25
随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。我们联合业界知名大模型专家,为大家退出了大模型1v6论文辅导小班课! ⼀、有关大模型核心的几个点⭐ 本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键 技术。我们将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法; 在知识扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方 面,研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多 模态理解等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、 ...
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 20:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 GianlucaMonaci 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 图像目标导航(Image goal navigation)需要两种关键能力:一是核心导航技能,包括检测自由空间、障碍物 及基于内部表征做决策;二是通过比较视觉观察与目标图像计算方向信息。当前主流方法要么依赖专门的图 像匹配,要么预训练计算机视觉模块进行相对位姿估计。 研究聚焦于一个关键问题:该任务能否如近期研究所说,通过强化学习(RL)对完整智能体进行端到端训 练来高效解决?若答案为肯定,其影响将超出具身AI领域,有望仅通过导航奖励来训练相对位姿估计模型。 核心研究内容与方法 关键架构选择 研究探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算,这对提取方向信息 至关重要。主要架构包括(figure 2): 实验设计 Late Fusion :分别编码观察图像和目标图像 ...
ArtGS:3DGS实现关节目标精准操控,仿真/实物双验证性能SOTA!
具身智能之心· 2025-07-04 17:48
研究背景与出发点 - 关节目标操作是机器人领域的关键挑战,核心难点在于复杂的运动学约束和现有方法有限的物理推理能力 [3] - 传统方法如端到端强化学习或模仿学习需要大量数据但常因缺乏物理知识导致动作违反约束 [3] - 3D视觉方法如GAMMA、RPMArt存在点云稀疏性、无序性和时间一致性不足的问题 [3] - 提出ArtGS框架通过扩展3D高斯溅射整合视觉-物理建模,优化关节骨骼参数保证物理一致性 [3] 核心框架与技术细节 - ArtGS包含三个关键模块:静态高斯重建、VLM基于骨骼推理、动态3D高斯关节建模 [4] 静态3D高斯重建 - 通过3D高斯溅射从多视图RGB-D图像重建高保真3D场景,场景表示为3D高斯球集合 [5] - 利用URDF文件和改进的Denavit-Hartenberg正运动学构建变换矩阵控制高斯点运动 [5] VLM基于骨骼推理 - 借助微调的视觉-语言模型InternVL-2.5-4B初始化关节参数估计 [6] - 通过3DGS新视图合成能力生成目标正视图辅助VLM输出视觉问答结果 [6] - 对旋转关节和移动关节分别采用PCA和边界框叉积方法估计初始关节参数 [8][9] 动态3D高斯关节建模 - 通过阻抗控制实现机械臂与环境的交互,结合微分渲染优化关节参数 [10] - 高斯点的均值和旋转因子通过线性混合蒙皮变换到关节空间 [10] - 通过最小化包含L1损失、结构相似性损失和正则化项的损失函数优化关节参数 [10] 实验验证与结果分析 关节参数估计 - ArtGS在关节轴误差和关节原点误差上显著低于ANCSH、GAMMA、Ditto等方法 [12] - 例如在洗碗机上ArtGS的AE为3.01°、OE为2.17cm,远低于ANCSH的15.32°和9.26cm [13] 关节目标操作 - 模拟环境中ArtGS操作成功率达62.4%-90.3%,显著高于TD3的3.1%-6.6%和Where2Act的8.4%-11.2% [14][15] - 真实世界实验中ArtGS对抽屉操作成功率达10/10,对柜子达9/10 [17] 关键能力验证 - ArtGS能通过3DGS可微分渲染优化参数,即使VLM初始轴估计误差超过20°仍能提升操作成功率 [19] - 具备跨机械臂适应性,能精确重建Franka、xArm7等不同机械臂 [19] 总结与展望 - ArtGS将3D高斯溅射转化为关节目标的视觉-物理模型,提升优化效率并解决遮挡问题 [20] - 未来方向将扩展至更复杂场景,提升对多关节、高动态目标的建模与操作能力 [21]