Workflow
具身智能之心
icon
搜索文档
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 18:56
出发点与优化目标 - 导航是自主智能体领域的基础能力,需要融合空间推理、实时决策和环境适应能力,但人工系统复现这一能力仍面临巨大挑战 [4] - 传统导航方法存在泛化性差、可扩展性不足和部署困难等问题,因其依赖模块化设计和特定任务工程 [4] - 视觉语言模型(VLM)为导航领域带来新思路,但受限于空间粒度和上下文推理能力不足 [4] - DyNaVLM提出零样本、端到端导航框架,无需微调或接触导航特定数据即可直接作为导航策略使用 [4] DyNaVLM核心创新点 - 动态动作空间构建:通过视觉语言推理实现自由形式目标选择,摒弃固定运动原语,提升运动灵活性和导航效率 [6] - 协作图记忆机制:受检索增强生成(RAG)启发,开发动态知识图捕捉空间关系和语义对象信息 [8] - 无需训练的部署模式:无需任务特定微调即可直接应用于新场景,降低部署成本并提高泛化能力 [8] 系统架构与方法 - 问题形式化定义:输入包括目标描述、RGB-D观测和机器人位姿,输出为动作,采用极坐标参数化动作空间 [11] - 记忆管理器:维护动态知识图,实现持久空间知识表示、跨机器人记忆共享和上下文感知记忆检索 [12][13] - 动作Proposer:采用基于候选的离散化策略,将连续搜索空间简化为有限均匀采样点集合 [14] - 动作Selector:综合几何候选点、感知上下文和记忆生成最终导航动作,包括空间采样和安全感知过滤 [14][16] 实验评估 - 模拟环境评估:在ObjectNav基准上取得45%成功率和0.232 SPL,优于PIVOT和VLMnav等框架 [19][22] - 真实世界评估:部署在Unitree Go2机器人上,在定位多个目标任务中成功率和行进距离显著优于VLMnav [25][27] - 协作图记忆机制在长且复杂导航任务中表现关键,帮助跟踪已访问位置并有效规划未来移动 [22]
具身智能领域的行业周期有多久?
具身智能之心· 2025-06-22 11:59
昨天和朋友聊天,对比了自驾和具身的发展周期。自驾从15年许多硅谷的同学回来创业,到现在 规模化、商业化已经近10年了。然而机器人产业已经发展了很多年了,相比于自驾我们认为后续 更多是算法和数据上的突破(当然硬件也有,只是说已经取得了一定发展)。我们期望5-8年有真 的可以商业化落地的机器人,这一点要比自驾来得快些。 智元和宇树都在为上市做准备,如果真的有好消息,这对整个产业将会是一个极大的振奋。大家 更要抓住这一波行业的机会,对我们来说,我们也一直在探讨究竟要做一个什么样的具身社区? 能够承接学术和产业界!其中一个答案比较符合我们的思路,那就是一个能够凝聚行业人群、遇 到问题能够快速响应、影响到整个行业的地方。 我们目标是3年内打造一个万人聚集的具身社区,这里也非常欢迎优秀的同学加入我们。 我们和多 家具身公司搭建了学术+产品+招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环 (课程 + 硬件 + 问答)。社区里也能看到很多最新的行业观点、技术输出。现在本体是怎么样 的?有哪些不足?数据采集的成功率和有效率怎么提升?sim2real怎么做的有效点?这些都是我们 一直关注的。 前面一直在想怎么帮助刚入门 ...
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 20:06
核心观点 - JarvisIR是基于视觉语言模型(VLM)的智能图像恢复系统,通过动态调度多个专家模型处理复杂天气下的图像退化问题,实现更鲁棒、更通用的图像恢复能力[5][9] - 系统在CleanBench-Real数据集上平均感知指标提升50%,显著优于现有方法[9][47] - 提出MRRHF对齐算法,结合监督微调与人类反馈,提升模型在真实场景下的泛化能力和决策稳定性[9][27] 方法详解 JarvisIR架构设计 - 核心思想是将VLM作为控制器,协调多个专家模型完成图像恢复任务[7] - 工作流程包括任务解析、任务规划、模型调度和结果整合四个步骤[10] - 首个将VLM作为控制器的图像恢复系统,能够自主规划任务顺序并选择合适的专家模型[9] CleanBench数据集 - 包含150K合成数据和80K真实世界数据,涵盖夜景、雨天、雾天、雪天等多种恶劣天气条件[12][15][18] - 每条训练样本是一个三元组(用户指令、退化图像、响应),支持训练与评估[18][19] - 填补了真实世界图像恢复数据的空白,推动社区发展[52] 两阶段训练框架 - 第一阶段监督微调(SFT)使用合成数据,目标是让VLM初步掌握图像恢复任务[23][25] - 第二阶段MRRHF对齐算法结合离线采样与在线采样策略,引入熵正则化项提升模型稳定性与泛化能力[27][30][33] - 总体损失函数由排名损失、微调损失和熵正则化损失三部分组成,协同优化模型[39][40] 实验与结果分析 决策能力对比 - JarvisIR-MRRHF在工具决策能力上显著优于其他策略,得分6.21,排名4.8%[44] - 优于随机顺序和模型、预定义顺序和模型以及人类专家等策略[44] 图像恢复性能对比 - 在夜景、雨天、雾天、雪天四种场景下均优于现有all-in-one方法[45] - 具体指标如MUSIQ在夜景场景达到67.25,雾天场景达到74.22,显著领先其他方法[45] 技术亮点总结 - 首次将VLM应用于图像恢复系统的控制中枢,具备强大的上下文理解和任务规划能力[52] - 提出MRRHF对齐算法,解决真实数据无标签问题,提升泛化能力[52][53] - 发布高质量数据集CleanBench,推动社区发展[52][53]
具身场景新框架!Embodied-Reasoner:攻克复杂具身交互任务
具身智能之心· 2025-06-21 20:06
点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 | 作者:Wenqi | Zhang | , | Mengna | Wang | , | Gangao | Liu | , | Xu | Huixin | , | Yiwei | Jiang | , | Yongliang | Shen | , | Guiyang | Hou | , | Zhe | Zheng | , | Hang | Zhang | , | Xin | Li | , | Weiming | Lu | , | Peng | Li | , | Yueting | Zhuang | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 20:06
π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术,包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据,通过权重调整处理不同机器人动作空间差异[3] - 训练流程继承PaliGemma VLM的语义知识,融合多模态输入(图像/语言/物理状态)[3] - 独立子网络(3亿参数)将VLM输出转换为连续动作,流匹配技术实现50Hz高频率动作序列生成[3] π₀优势与功能 - 零样本直接执行预训练覆盖的语言提示任务(如"fold shirt")[4] - 支持复杂任务多阶段微调(如叠衣服分解为4个子步骤)[5] - 语言指令跟随能力可将高层任务(如"bus the table")分解为子任务序列[6] - 流匹配技术实现50Hz精细操作,适用于衣物折叠等高精度场景[7] - 单模型适配多种机器人形态,降低部署成本[10] π₀性能分析 - 开箱即用性能:在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[11] - 微调效率:预训练类似任务仅需1-5小时数据微调,全新任务性能比从头训练提升2倍[11] - 复杂任务表现:叠衣服等任务通过"预训练+微调"实现60%-80%完成度[11] - 衬衫折叠成功率接近100%,复杂清理任务正确分类数量比Octo高40%[12] π0.5模型结构 - 采用双阶段训练框架和分层架构,基于Transformer实现多模态序列编码[13] - 分层推理机制:高级语义子任务预测+低级动作生成,结合离散/连续动作表示[16] - 预训练阶段使用400小时异构数据(97.6%非移动机器人数据)[16] - 后训练阶段引入动作专家模块优化实时控制,SigLIP视觉编码器(400M参数)+Gemma语言模型(2.6B参数)[16] π0.5优势与功能 - 异构数据驱动泛化:在未见过场景中执行任务,支持10分钟以上长时程操作[18] - 离散-连续混合训练比纯扩散模型效率提升3倍[17] - 多场景适应性:家庭环境清洁/整理任务,跨实体迁移学习能力[20] - 数据效率突破:仅用400小时移动数据(占2.4%)实现强泛化[21] π0.5性能分析 - 真实环境表现:未训练家庭中多阶段任务成功率60%-88%,单任务耗时10-15分钟[25] - 数据规模影响:104个训练位置时性能接近测试环境基线(差距<5%)[26][27] - 关键数据源:跨实体数据移除导致性能下降20%-30%,网页数据对未知物体泛化至关重要[28] A0模型结构 - 分层架构设计:高层空间Affordance理解+低层动作执行[29] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[30] - 预训练策略:100万接触点数据集预训练+标注轨迹微调[31] A0优势与功能 - 跨平台泛化:支持Franka/Kinova等机器人平台无缝部署[34] - 高效空间推理:通过接触点预测降低计算成本[34] - 数据利用效率:少量任务数据即可适应新场景[34] A0性能分析 - Franka机器人平均成功率62.5%,开抽屉任务达75%[35] - Kinova机器人轨迹跟踪任务成功率比基线高20%[35] - 擦黑板任务成功率比MOKA高15%-20%,执行步骤仅为RDT-1B的1/8-1/10[35]
近30家具身公司业务和产品一览
具身智能之心· 2025-06-20 11:07
具身智能领域公司盘点 人形机器人领域 - 智元机器人专注人形机器人研发 代表产品包括远征A1 A2双足人形机器人 支持复杂地形行走和精细操作 如拧螺丝 插拔插座 [2] - 傅利叶智能推出GR-1 GR-2通用人形机器人 同时开发上肢康复机器人 采用3D空间训练模式用于中风患者康复 [6] - 松延动力研发通用人工智能本体 创新产品包括运动健将N2和通用人形Dora [10] - 开普勒机器人定位通用人形机器人 产品先行者系列K1 K2应用于智能制造 仓储物流 科研教育等领域 [25] 四足机器人领域 - 宇树机器人是全球四足机器人领导者 代表产品Go1 Go2系列消费级四足机器人搭载超感知AI系统 支持人脸识别跟随 [3][5] - 云深处科技聚焦特种四足机器人 绝影X20 x30具备防爆设计和IP66防护等级 可爬40°斜坡 用于变电站巡检 [7] - PNDbotics推出四足机械狗U1 [24] 核心技术创新 - 宇树机器人自研M107电机扭矩密度达30Nm/kg 运动控制方案成本低于波士顿动力同类产品80% [5] - 云深处科技J系列关节最大扭矩重量比达56 48Nm/kg J60-10 [7] - 星动纪元开发全直驱仿人五指灵巧手星动XHAND1 [19] - 智平方推出具身大模型AI2R Brain [20] 行业应用场景 - 宇树机器人与比亚迪 宁德时代合作落地工业场景 [2] - 云深处科技产品被国家电网 南方电网批量采购 2023年巡检里程超10万公里 [7] - 自变量机器人S6六轴协作机械臂重复定位精度达±0 02mm 适用于半导体晶圆搬运 汽车电子拧紧等精密装配场景 [12] - 乐聚机器人Aelos开源人形机器人覆盖K12至高校编程教学 合作世界机器人大赛WRC [14] 新兴技术方向 - 西湖大学孵化企业西湖机器人主攻强化学习与大模型深度融合的通用智能创新路径 [18] - 银河通用研发可泛化操作的具身大模型机器人GALBOT G1 能灵活应对复杂场景 [31] - 穹彻智能开发"以力为中心"的具身智能大模型Noematrix Brain和AnySkill [30] - 维他动力构建视觉语言模型ViLa和部件约束模型CoPa的具身大模型体系 [32]
EMBODIED WEB AGENTS:融合物理与数字领域以实现综合智能体智能
具身智能之心· 2025-06-20 08:44
研究背景与核心问题 - 当前AI智能体存在领域割裂问题,网络智能体擅长数字信息处理,具身智能体专注于物理交互,二者协同不足[4] - 人类智能天然融合物理与数字领域,而现有AI缺乏这种跨域协同能力[4] - 研究团队提出Embodied Web Agents (EWA)新范式,旨在构建可无缝桥接物理具身与网络推理的智能体[4] 统一仿真环境 - 开发集成式任务环境,整合户外环境、室内环境和网络环境三大模块[5][8][10] - 户外环境基于Google街景/地球API构建真实城市导航图[5] - 室内环境采用AI2-THOR高拟真厨房场景[8] - 网络环境自建5功能网站,包括食谱、购物、地图、维基和主页[10] - 状态空间融合物理与数字状态,动作空间支持跨域操作,观测空间包含具身观测与网络感知[7] 基准测试EWA-Bench - 构建包含1.5K任务的评测集,涵盖烹饪、导航、购物、旅游和地理定位5大领域[11] - 任务类型包括烹饪(911条)、导航(144条)、购物(216条)、旅游(110条)和地理定位(142条)[11] - 75%任务需多次环境切换,强制考察跨域协调能力[11] 实验结果与发现 - 主流模型性能差距显著,GPT-4o整体准确率34.72%,Gemini 30.56%,Qwen 15.97%,Intern 13.19%,人类90.28%[14] - 导航任务中,GPT-4o完成率52.08%,Gemini 48.96%,Qwen 36.81%,Intern 26.04%,人类91.32%[14] - 购物任务中,GPT-4o整体准确率25.46%,Gemini 23.61%,Qwen 13.89%,Intern 10.65%,人类92.59%[14] - 旅游任务中,GPT-4o整体准确率30.91%,Gemini 25.45%,Qwen 11.82%,Intern 9.09%,人类91.82%[14] 错误根因分析 - 失败主因是跨域协同问题,占比66.6%[15] - 模型在纯网络任务表现尚可(57-69%),但涉及物理交互时暴跌至≤10%[15] - 烹饪任务中文本输入显著优于视觉输入[15] - 单域循环陷阱占比36.8%,指令-动作错位占比11.8%,无效环境切换占比16.7%[19] 地理定位任务启示 - 具身探索显著提升定位精度,GPT-4o街道级识别从1.41%提升至3.52%[20] - 查询行为本身可强化推理置信度,即使检索结果噪声大[20] 贡献与未来方向 - 首次形式化"具身网络智能体"概念框架[21] - 发布首个物理-数字融合仿真环境[21] - 构建多领域任务集EWA-Bench[21] - 揭示当前LLM跨域协同是主要瓶颈[22]
VR-Robo:real2sim2real,机器人视觉强化学习导航和运动控制新范式!
具身智能之心· 2025-06-20 08:44
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Shaoting Zhu等 编辑丨具身智能之心 近年来,得益于强化学习与高性能仿真器的结合,足式机器人在自主运动控制方面取得了显著进展。然 而,当这些策略部署到现实世界中时,往往因"仿真到现实(Sim-to-Real)"存在差异而表现不佳。现有方 法难以复现真实场景中的复杂几何和视觉细节,限制了基于视觉感知的高层次任务(如目标导航)的开 展。为解决这一难题,我们提出了VR-Robo:一个面向足式机器人视觉导航与运动控制的"真实-仿真-真实 (Real-to-Sim-to-Real)"统一框架。 作者单位包括清华大学、普林斯顿大学、星海图、上海期智研究院和上海交通大学。 项目主页/代码(现已开源):https://vr-robo.github.io/ 相关工作 以往研究为缩小Sim-to-Real差距做了大量探索。包括: 但这些方法多依赖特定传感器,难以在高保真渲染和真实几何建模之间取得平衡。此外,许多方法仅支持 低层次的运动控制,尚未形成完整的感知-理解-行动闭环。 解决方案 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术 ...
港科大智能建造实验室诚招博士后/博士生/研究助理(机器人方向)
具身智能之心· 2025-06-20 08:44
郑展鹏教授学术背景 - 郑展鹏教授现任香港科技大学正教授 并担任土木与环境工程学系副系主任 极智慧城市研究院副院长 智能建造实验室主任 低空经济研究中心成员等多个学术职务 [1] - 教授拥有斯坦福大学博士学位 在国际期刊发表360篇论文 总引用超18,000次 h-index达76 入选2024年全球前2%顶尖科学家榜单 [2] - 曾获buildingSMART国际openBIM大奖 日内瓦国际发明展金奖等荣誉 担任Automation in Construction等期刊编委 [1][2] 研究方向与招募信息 - 方向一聚焦多旋翼无人机开发 需实现无GPS环境自主巡航 要求申请人熟悉ROS编程 SLAM算法和飞控系统 [4] - 方向二基于水下机器人 研究水下目标识别与三维重建 要求掌握计算机视觉 深度学习及水下成像原理 [5][6] - 招募岗位包括博士后 博士生和研究助理 优先考虑有相关科研竞赛经验及论文发表者 [4][5] 博士生待遇详情 - 常规博士奖学金为每年HK$225,120(月HK$18,760) 港府奖学金达每年HK$337,200(月HK$28,100) [8] - 红鸟奖学金提供HK$40,000入学奖金 免除首年学费 后续每年额外HK$20,000奖学金 [8] - 另设会议及海外交流奖学金资助 具体参见港科大研究生奖学金网页 [8]
【圆桌正当时】机器人不能没有方向盘,你的遥操够丝滑吗?
具身智能之心· 2025-06-20 08:44
行业趋势与概念发展 - 具身智能概念诞生于1950年 但当前热潮本质是Robot Learning学科从规则驱动范式转向数据驱动范式的变革 类似AI 1.0时代人脸识别领域的技术跃迁 [3] - 基于遥操作采集数据训练的模型已能完成叠衣服、系鞋带等传统规则驱动难以实现的任务 标志着技术路径的根本转变 [3] - 人形机器人热潮推动中国机器人供应链快速成熟 本体构型呈现百花齐放态势 遥操作技术从辅助工具升级为行业核心要素 [3] 技术发展阶段类比 - 当前机器人行业处于马车向汽车过渡的早期阶段 如同手机行业在功能机时代的多样化探索 缺乏标准化操作硬件和软件架构 [4] - 机器人领域尚未形成类似汽车方向盘或手机安卓系统的统一交互标准 操作系统的工程化水平仍处于初级阶段 [4] - 即使模型驱动算法短期难突破 开发人类友好型机器人操作系统仍可成为推动行业发展的第二引擎 [4] 商业化路径与生态建设 - 行业需要并行推进全无人方案与渐进式辅助驾驶方案 类似自动驾驶领域的技术落地策略 [5] - 亟需构建ROS3.0级别的具身机器人操作系统 形成类似柳树街车库的开发者生态 联合工程师、研究机构与工业企业共同推进 [4][5] - 大模型技术加速机器人行业进步 催生多元化供应链体系 为新产品品类诞生创造条件 [4] 技术研讨方向 - 重点关注遥操作技术的标准化进程 其可能成为机器人领域的"方向盘"或"安卓系统" [5] - 探索具身智能渐进式落地方案 平衡技术理想与商业化可行性 [5] - 优化遥操作硬件/软件交互设计 提升人机协同效率 [5]