Workflow
具身智能之心
icon
搜索文档
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-24 22:29
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 通过结合语言理解与物理操作能力 实现从虚拟到现实的跨越[1] - 全球科技巨头如Tesla、Boston Dynamics、OpenAI、Google等均在布局具身智能领域 代表性产品包括Optimus人形机器人、Atlas、机械手和RT-X项目[1] - 该技术将革命性改变制造业、服务业、医疗健康、太空探索等多个行业 应用场景涵盖精密装配、手术协助、家庭服务及危险救援[1] MuJoCo技术核心价值 - MuJoCo作为物理仿真引擎 是连接虚拟与现实世界的关键桥梁 提供高保真高效率的机器人训练环境[4] - 解决传统机器人试错学习的高成本与低效问题 仿真速度可达现实时间的数百倍 支持极端环境下的无损训练[6] - 采用先进接触动力学算法 精确模拟机器人与环境交互 支持并行化计算、多模态传感器建模及长时间稳定仿真[6] - 已成为学术界与工业界标准工具 被ICRA、IROS、NeurIPS等顶级会议广泛采用 Google、OpenAI、DeepMind等公司均依赖其进行研究[8] 具身智能实战课程体系 - 课程设计六个递进式模块 每周聚焦特定技术目标 涵盖MuJoCo基础、强化学习、机器人控制、多智能体系统及Sim-to-Real迁移[13][16] - 包含六个实战项目:智能机械臂控制(六自由度模型与PID控制器)、视觉抓取系统(物体检测与光照模拟)、强化学习运动技能(抛接球/平衡控制)、自适应MPC控制、多机器人协作、Sim-to-Real迁移验证[19][21][23][25][27][29] - 采用PyTorch、Stable Baselines3等工具链 强调工程规范与调试技巧 项目均来自中国机器人企业实际应用场景[10][29] 技术能力与职业发展 - 学员将掌握MuJoCo仿真建模、强化学习算法设计、机器人控制理论及Sim-to-Real迁移等完整技术栈[32] - 职业路径包括机器人算法工程师(年薪30-150万)、AI研究工程师或仿真技术专家 产品经理方向年薪可达30-80万[35] - 课程采用离线视频教学与VIP群答疑模式 2025年7月15日开课 六周完成全部内容[37]
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 22:09
背景与动机 - 当前视觉语言模型(VLMs)在空间推理任务中存在显著不足,如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限:场景单一性(集中于室内/室外场景)、指令格式受限(仅支持自然语言或区域掩码)、多视角监督缺失(超90%为单图推理)[3] InternSpatial数据集 - 规模与结构:包含1200万QA对(950万单视图+250万多视图),覆盖5类场景(自然场景、室内、街景、物体中心、具身导航)[3] - 指令多样性:支持19种指令格式,显著优于对比数据集[3] - 视觉格式:提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式:包含自然语言/带<ref>标记/坐标引用等,新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断:包含6,008 QA对,涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展:在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线:注释生成(复用现有注释或SAM2生成掩码)、视角对齐(构建标准3D坐标系)、模板化QA生成(预定义任务模板动态填充)[9] 关键实验结果 - 空间推理性能:InternVL-Spatial-8B模型在单视图任务中位置比较提升25%,多视图任务中物体计数提升17%(68.7 vs 51.7)[9][10] - 多任务表现:在物体计数、绝对距离、物体大小等7项任务中平均得分52.3,较基线提升10.7分[10] - 指令格式鲁棒性:训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性:自动生成的QA对难以完全复现自然语言复杂度,部分描述机械化[12] - 开放推理欠缺:集中于结构化空间关系,缺少开放式场景推理(如物体运动轨迹解释)[12]
具身领域的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-24 22:09
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
【万字长文】独家圆桌对话:具身下一站,我们究竟需要怎样的本体?
具身智能之心· 2025-06-24 22:09
圆桌发起人:赵仲夏 格灵深瞳算法总监 北京大学和智源研究院访问学者(小红书id:夏染) 圆桌嘉宾:智元机器人遥操负责人 王文灏 圆桌嘉宾:清华大学自动化系副教授,灵御智能首席科学家 莫一林(知乎ID:莫一林) 圆桌主持人:知乎大V,沃尔沃哲晰软件(Zenseact)深度学习负责人 刘斯坦 圆桌主持人:具身智能之心 Gloria 关关关关关关关关于于于于于于于于这这这这这这这这场场场场场场场场 """""""" 一一一一一一一一拍拍拍拍拍拍拍拍即即即即即即即即合合合合合合合合 """""""" 圆圆圆圆圆圆圆圆桌桌桌桌桌桌桌桌的的的的的的的的起起起起起起起起源源源源源源源源和和和和和和和和嘉嘉嘉嘉嘉嘉嘉嘉宾宾宾宾宾宾宾宾 1 于是三天后的晚上,我们定下了这桌有关具身本体构型的"好饭"! 本场圆桌畅谈不少深度的好东西,比如: 具身智能之心 Gloria 本场圆桌起源于一个普通的周末清晨。本次发起人赵仲夏老师拉着我畅谈了半个小时的具身本体未定论,当时饥饿又不清醒的我听完后非常酣畅淋漓。 是啊,"入局"这么久,见过和摸过的本体很多,到底哪种构型才是具身从业者需要的呢? 于是我们一拍即合,当机立断: 这个主题,必须来一 ...
一篇好的具身论文应该是怎么样的?
具身智能之心· 2025-06-24 15:27
最近收到了许多同学在论文发表上的求助,学校绕不开一篇三区论文硕士毕业,没有三篇CCF-A博 士都毕不了业,老师对这个新的方向不熟悉,开展不了工作。一直在为论文选题绞尽脑汁,实验设 计总遇瓶颈,写作逻辑混乱不清,投稿屡屡被拒! 尤其是在前沿且复杂的自动驾驶、具身智能、机 器人领域,真的有点力不从心。 一篇好的论文需要有好的切入点,哪个方向更容易产出,这一个判断尤为重要!剩下的就是怎么论 证这个idea work,比当前SOTA有效(如果是A类会议)。实验的设计也非常重要,特别是消融实 验,要摸清是什么因素导致的提升。后期的写作技巧,取决于你是否能够让审稿人眼前一亮,如何 回复审稿意见也是需要经验的。 筹备了近1年,我们的论文辅导正式推出了,主要面向自动驾驶/具身智能/机器人领域。 我们是谁? 国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台,拥有国内 最顶尖的学术资源。深耕 自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉学科的挑 战与机遇,更明白一篇高质量论文对于学生(尤其是硕博生)学业和未来发展的重要性。 我们目前有300+专职于自动驾驶/具身智能方向的老师。 ...
具身领域的目标导航到底是什么?有哪些主流方法?
具身智能之心· 2025-06-23 22:02
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
从刮胡子机器人到双臂神技!这家具身独角兽引爆亿级美元融资热潮
具身智能之心· 2025-06-23 21:54
作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 具身智能可太火了!Generalist AI发布了一段震撼视频,机器人完成高难度任务,全程 动作丝滑流畅。而这背后,竟是来自一款国内自研「拂晓」仿人自适应机器人。 就在刚刚,这家 公司又宣布了新一轮的融资。 日前,由前DeepMind科学家Pete Florence和Andy Zeng创立,且已获英伟达投资的AGI初创企业 Generalist AI发布了一段视频,展示其训练AI模型进行物理世界交互的进展。 不同于以往人形机器人大秀拳脚,视频中,两对机械臂在完全自主状态下完成多个高难度双臂协同操 作,展示出丝滑流畅的手眼协同、持续接触的复杂精细操作能力。 动图经过加速 Generalist AI的演示展示了具身智能技术在「物理交互灵巧性」与「感知—运动策略」上的重大突 破;通过端到端的模型训练,让机器人不再只是预设动作的「机械臂」,而是融合视觉、力觉进行实 时策 ...
等了十年,特斯拉Robotaxi终于上线!马斯克:仅需4.2美元一口价
具身智能之心· 2025-06-23 21:54
作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 马斯克终于不「画饼」了!4.2美元坐特斯拉Robotaxi初体验:平稳但尚不成熟。 马斯克也在 X 上发文祝贺: 同时还透露,首批乘客将以「固定价格」4.20 美元搭乘。 马斯克兑现了承诺。 早在十年前,埃隆・马斯克就曾多次表示,特斯拉有能力推出无人驾驶服务,但后来却食言了。上周日,特斯拉终于在德克萨斯州奥斯汀正式启动了自动驾驶出 租车服务。 当然也可以付小费。 评论区的网友一片欢呼: 限定试运营,尚未全面开放 目前,特斯拉的 Robotaxi 服务 仅限受邀用户使用 ,并未向公众全面开放。首批试乘者主要为支持特斯拉的知名社交媒体博主和科技内容创作者,因此外界对其初 步评价的客观性仍持保留态度。至于该服务何时正式向公众开放,特斯拉尚未给出明确时间表。 此次小规模试运营共投入约 10 至 20 辆贴有 「Robotaxi」标识的 Model Y 车辆。而去年首次亮相、备受 ...
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
具身智能之心· 2025-06-23 21:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Meng Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 1简Intr 介 oduction - 基于模仿学习,目前主流的多任务 VLA 模型及其训练方式无法很好的应对任务变更问题。比如, 当任务A进行一半时,此时切换任务B,大部分方法解决该问题的能力十分薄弱。 - 诸如此类问题我们定义为 Task Switching ,即"任务切换"。为解决该问题,我们设计了执行感知 (Execution-Aware)机制,通过极简的形式表示了任务切换的情况。在模型侧采用了轻量化的网络 架构,并设计了新的训练范式及数据采样算法。 - 我们的方法 轻量 (0.27B)且 无需额外收集遥操数据 ,便可实现任务切换功能,并大幅超越现有 SOTA VLA 方法。 | - 论文地址:https://arxiv.org/abs/2506.03574 | - 项目网站:https://switchvla. ...
入门具身离不开3个要素,数据+算法+本体
具身智能之心· 2025-06-23 21:54
数据部分:遥操采集依赖本体,成本较高。但前处理和后处理较为简单,质量也最高,适用于机 械臂。VR 遥操+动捕手套方案,操作员会戴上 VR 眼镜用于和机器人的视野对齐,动捕手套捕捉 的手指运动转发到灵巧手上,适用于人形机器人。 算法部分:VLN、VLA、Diffusion Policy、强化学习等是具身常用的技术栈,方法更新较快,需 要保持paper reading。 硬件部分:预算足的实验室有经费购买20-30w的本体,预算不足的同学依赖3D打印自己制作机械 臂或者采购性价比高的硬件平台,甚至在仿真里面做,研究比较受限。 我们的具身社区针对这三个大的模块做了比较充足的分享,包括数据采集方案、本体、仿真以及 算法部分,同时也给大家提供了几款高性价比的机械臂平台,助力研究。 入门具身离不开3个要素,数据+算法+本体,说实话很多同学只懂算法,甚至说懵懵懂!数据的采 集更是需要经验,遥操和retargeting方案,很多人采集不到真实有效的数据。本体更是许多同学触 不可及的东西,高性价比的平台和仿真是很多同学入门的第一步。 社区目标是3年内打造一个万人聚集的地方,这里也非常欢迎优秀的同学加入我们(目前已经有很 多具身 ...