Workflow
具身智能之心
icon
搜索文档
SLAM与视觉语言/目标导航有什么区别?
具身智能之心· 2025-11-27 08:04
行业技术定义与核心 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向,要求智能体在陌生三维环境中,仅凭目标描述即可自主完成环境探索与路径规划 [2] - 该技术实现了从依赖显式指令的“听懂指令走对路”到自主决策的“看懂世界自己找路”的跃迁,背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地与应用场景 - 在终端配送场景,美团无人配送车通过动态路径重规划在复杂城市环境中执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [4] - 在医疗、酒店及餐饮场景,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列,已实现药品、文件和餐食的自主配送 [4] - 随着人形机器人发展,导航技术适配性升级成为新焦点,宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人在工业场景集成该模块,特斯拉Optimus展示了“取放电池”等端到端操作能力 [4] 技术生态与评测体系 - 基于Habitat仿真的具身导航生态完整记录了领域技术迭代轨迹,自2020年CVPR提出点导航基准以来,评测体系逐步扩展至图像导航、目标导航及移动抓取任务 [5] - 技术进展呈现明显梯度:点导航和闭集物体导航接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战 [5] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供了方法论参考,CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [5] 三代技术路线迭代 - **第一代端到端方法**:基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中取得突破,部分方法的SPL指标已逼近人类表现 [6] - **第二代模块化方法**:通过显式构建语义地图将任务分解,在零样本目标导航任务中展现显著优势,在未见物体场景下成功率提升明显 [8] - **第三代LLM/VLM融合方法**:引入大语言模型的知识推理能力生成语义指导的探索策略,并通过视觉语言模型提升开放词汇目标匹配精度,当前研究重点在于设计场景表征接口 [10] 相关课程内容与结构 - 课程旨在解决目标驱动导航领域技术栈多、入门困难、知识碎片化、缺乏实战指导等挑战 [11] - 课程特点包括:基于Just-in-Time Learning理念快速入门、帮助学员构建领域框架与研究能力、理论结合实践完成闭环 [11][12][13] - 课程大纲共六章,系统覆盖语义导航核心框架、Habitat仿真生态、端到端导航方法论、模块化导航架构、LLM/VLM驱动的导航系统以及大作业 [15][17][18][19][20][21][22] - 大作业聚焦VLFM算法复现与真实场景部署,实践流程包括占据地图构建、边缘探索点生成与排序、值地图生成、导航策略构建及算法改进与实机部署探索 [23][27] - 课程为期3个月,采用离线视频教学配合VIP群答疑,进度安排覆盖从概述、仿真环境到三代核心方法的理论与实战,最终完成大作业 [28][29]
AAAI'26 Oral | 华科&小米提出新范式:教机器人「时间管理」,任务效率提升30%以上!
具身智能之心· 2025-11-26 18:00
文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型,通过将运筹学知识引入具身智能任务规划,使机器人能够像人类一样进行并行任务调度,从而显著提升任务执行效率[2] - 该方法的核心创新在于“大模型+求解器”的协同架构,让大语言模型负责语义理解和场景感知,而外部优化求解器负责复杂的数学规划,实现了任务完成效率30.53%的提升[2][16] - 此项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越,为开发真正具备“时间管理”能力的智能管家奠定了基础[22] 研究背景与痛点 - 现有具身智能机器人通常只能按顺序串行完成任务,缺乏人类“统筹方法”的能力,导致执行效率低下[3][5] - 根本原因在于现有机器人缺乏运筹学知识,无法识别哪些任务可并行处理,哪些任务必须独占注意力,同时还需在复杂3D场景中精准定位物体[6] 数据集创新 - 研究团队构建了首个融合运筹学知识的大规模3D具身数据集ORS3D-60K,包含4,376个真实室内场景和60,825个复合任务[10][12] - 该数据集平均指令长度高达311个单词,远超其他数据集,并且每条任务都经过运筹学求解器验证,提供了数学上的最优调度方案作为标注[12] - 数据集根据运筹学原理将子任务细分为非并行化子任务和并行化子任务,迫使模型进行全局最优规划而非局部决策[12][15] 技术方法与架构 - GRANT模型包含四个核心组件:3D场景编码器、大语言模型、调度令牌机制和3D定位头[16][19] - 调度令牌机制是关键创新,LLM不直接计算时间,而是预测子任务属性,然后通过特殊令牌调用外部优化求解器进行动态规划计算最优时间表[16][19] - 这种架构实现了“懂人话、认东西”与“算时间、排工序”的专业分工,结合了多模态理解与数学优化优势[19] 性能表现与实验结果 - 在ORS3D-60K数据集上,GRANT在综合性能指标上达到53.49,相比基线方法提升10.46个百分点[18] - 任务执行效率相比基线方法提升30.53%,同时3D定位精度不仅没有牺牲反而提升1.38%[19] - 实际案例显示,模型能将总耗时从74分钟压缩至45分钟,效率提升39%,并在每一步都实现高精度3D物体定位[21]
具身方向,论文“救援”来了!
具身智能之心· 2025-11-26 18:00
公司业务与服务定位 - 公司提供一站式论文辅导服务 专注于具身智能及相关前沿技术领域 旨在解决从选题到投稿的全流程学术难题 [1] - 服务覆盖从顶级会议CCF-A到CCF-C 以及SCI一区到四区、EI、中文核心、毕业论文和申博等多种学术产出需求 [1] - 公司提供1对1定制化辅导 核心方向包括多模态大模型、视觉语言动作、视觉语言导航、机器人抓取与导航、3D高斯泼溅、端到端具身智能体及具身合成数据生成等 [1] 核心团队与专业能力 - 导师团队来自CMU、Stanford、MIT等国内外名校的PhD及大厂研究员 具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的审稿经验 [1] - 团队具备工业界与学术界双重视角 不仅关注论文发表 也关注技术的落地价值 例如机器人抓取的鲁棒性和导航的实时性优化 [3] 服务流程与价值主张 - 提供全流程闭环辅导 涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略等关键环节 [2] - 公司为前10名咨询者提供免费匹配专属导师的服务 可进行深度会议并获得一对一的会议或期刊选投建议 [4]
具身智能之心技术交流群成立了!
具身智能之心· 2025-11-26 18:00
社群成立与目标 - 具身智能之心技术交流群正式成立,旨在促进相关技术领域的交流与合作 [1] - 社群主要关注方向包括视觉语言导航、遥操作、扩散策略、强化学习、多模态大模型等前沿技术领域 [1] 社群加入方式 - 感兴趣者可通过添加指定助理微信账号申请加入社群 [2] - 申请入群需按要求备注个人机构、姓名及研究方向信息以加速审核流程 [3]
2.64亿元订单!刷新全球人形机器人记录
具身智能之心· 2025-11-26 12:00
公司业务进展 - 优必选中标广西防城港市人形机器人数据采集与测试中心和人工智能科创教育示范项目,金额2.64亿元,产品以最新款人形机器人Walker S2为主 [2] - 项目涉及边境口岸的旅客和人员疏导、岗哨巡检、物流、商业服务以及国内钢铜铝大型生产制造基地的设施巡检等,预计12月交付 [2] - Walker S2机器人本月已陆续交付,主要应用于制造业和物流行业 [5] 产品市场表现 - Walker S2机器人今年订单总金额已达11亿元,为全球最大的单品人形机器人销售金额 [4] - 该订单表现给全球人形机器人市场带来了信心 [5]
机加篮球有没有搞头?港科大解锁全球首个真实篮球机器人Demo!
具身智能之心· 2025-11-26 08:05
技术突破与核心观点 - 香港科技大学研究团队展示了全球首个能在真实场景中完成篮球动作的机器人demo,标志着具身智能在复杂物理交互任务上的重大进展[5][50] - 该技术突破基于团队此前在仿真环境中的系列研究,包括PhysHOI、SkillMimic和最新的SkillMimic-V2,实现了从虚拟仿真到现实应用的快速跨越[7][36][50] - 核心技术创新在于解决了从稀疏、含噪且覆盖不足的演示数据中学习鲁棒且可泛化交互策略的难题[11] SkillMimic-V2技术细节 - SkillMimic-V2通过引入拼接轨迹图(STG)、状态转移场(STF)和自适应轨迹采样(ATS)三大关键技术,有效应对演示数据的稀疏性、不连贯性和噪声问题[11][14][22] - 在困难技能(如上篮Layup)上的成功率从0%显著提升至91.5%,技能转换成功率(TSR)从2.1%飙升至94.9%,性能提升显著[26][27] - 该方法能够实现运球到投篮等复杂技能间的自然转换,并具备从干扰状态中恢复的能力,展现出强大的鲁棒性和泛化性[21][24] SkillMimic技术框架 - SkillMimic框架采用统一HOI模仿奖励与分层技能复用架构,在单一奖励配置下成功训练出掌握多样化篮球技能的交互策略[30][32] - 基于构建的BallPlay-V和BallPlay-M数据集(约35分钟篮球交互数据),该方法在运球、上篮等任务上的成功率(如79.6%和99.1%)显著高于DeepMimic和AMP等传统方法[33][34] - 分层架构包含低层的交互技能策略和高层的高级控制器,能够有效组合基础技能以完成长程复杂任务[32] 技术演进与基础研究 - PhysHOI作为早期工作,提出了基于物理仿真的动态人-物交互模仿学习框架,并引入接触图(Contact Graph)概念以优化运动学模仿奖励[36][38][43] - 系列研究的核心研究人员王荫槐(香港科技大学博士)在PhysHOI、SkillMimic和SkillMimic-V2中均担任关键角色,体现了技术发展的延续性和深度[46][49] - 技术发展速度迅猛,从2023年的仿真环境研究快速推进至真实环境中的机器人演示,显示出该领域强大的创新活力[50]
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒
具身智能之心· 2025-11-26 08:05
文章核心观点 - Generalist AI公司发布了其Gen-0具身基础模型,该模型基于公司自建的、当前具身领域规模最大的真实世界操作数据集(27万小时)进行预训练,在数据规模上实现了难以撼动的领先 [3] - 该模型在6段公开视频中展示了其在处理复杂、多样化、贴近现实的长程操作任务时的高泛化能力和精细操作水平 [5][8][11] - 公司的核心团队由来自Google DeepMind、波士顿动力、OpenAI、Waymo等顶尖机构的资深研究人员组成,其愿景是“部署通用机器人”,将体力劳动的边际成本降至为零 [4] 数据规模与基建 - Gen-0模型基于27万小时的真实世界操作轨迹进行预训练,该数据集是当前具身领域规模最大的,仅在衣物处理的轨迹数就达到了3亿条 [3] - 该数据集的原始数据量级达数十PB(1 PB相当于10万条10GB的高清视频),且数据采集速度能实现每周上传1万小时,并持续提升 [7] - 数据量的指数级增长对算力投入和数据质量把控提出了极高要求,新进入者若想复刻此数据规模,仅数据采集“爬坡”就需至少半年到一年时间,不包括搭建数据基建的过程 [7] 模型能力与任务表现 - 模型展示了处理复杂、多轴铰链任务(如折叠外卖盒子)的高泛化能力,该任务需处理多个相互关联的运动自由度,构成一个多轴联动系统 [8] - 视频中操作的对象均为现实生活中常见、非特制的真实物品,涵盖各类纸盒、带胶带封装的包装物、不同形态的玩具、线缆、柔性材质物品等,任务环境高度贴近真实世界 [11] - 模型展现了处理刚性、柔性、可变形结构等不同物性物体的能力,其面对多样化、高自由度、多物理属性物体时的适应性与泛化能力令人印象深刻 [8][9] 硬件设计与创新 - 采用了双臂加夹爪的工业设计思路,其使用的协作机械臂在稳定性、臂长上接近人类,从替换人的角度考虑是合理的设计 [12] - 夹爪进行了精细化设计,不再是常见的二指平行夹爪,而是具有更大量程(类似剪刀结构)和尖锐末端的创新设计,使其能完成如同时接触物体前后两个面、分拣精细条状物体等灵巧操作 [15][18] - 机械臂具备力控功能,在视频中表现出丝滑的操作效果,硬件设计上的创新突破值得行业关注和学习 [15][20] 团队背景与行业启示 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,CTO Andrew Barry来自波士顿动力,首席科学家Andy Zeng也来自Google DeepMind,核心团队还包括来自OpenAI、Waymo等公司的资深研究人员 [4] - 公司的愿景是创造出无所不能的机器人,将体力劳动的边际成本降为零 [4] - 此次发布启示行业,海外领先公司在硬件创新结构设计上同样具有显著优势,值得国内从业者学习 [20]
ActDistill:同济大学提出动作引导蒸馏框架,机器人推理速度提升1.67倍
具身智能之心· 2025-11-26 08:05
文章核心观点 - 提出一种名为ActDistill的新型高效蒸馏框架,旨在解决Vision-Language-Action模型在机器人等具身智能场景中因计算开销大、推理延迟高而难以实时部署的问题 [2][3] - 该框架的核心思路是以动作预测为导向,将大型教师模型的动作中心语义迁移到轻量化学生模型,实现效率与保真度的平衡 [4] - 实验验证表明,该框架能在计算量减少50%以上、推理速度提升最高1.67倍的同时,保持接近全量模型的任务成功率 [9][12][24] 研究背景与核心问题 - Vision-Language-Action模型在机器人操作、视觉导航等场景中表现出强大的多模态推理能力,但其庞大架构和频繁的跨模态交互导致计算开销大、推理延迟高,难以部署在实时或资源受限的系统中 [2] - 现有高效VLA策略多沿用视觉-语言模型的优化思路,优先压缩视觉-语言相关性,却忽略了动作预测的核心目标,容易造成关键信息损耗和动作语义不连贯两大问题 [2] 核心方法:ActDistill框架 - 框架包含两大核心模块:图结构封装和动作引导自衍生蒸馏 [4] - **图结构封装模块**通过动态关系图构建、消息传递与语义胶囊生成,显式建模动作语义的层级演化,分离任务相关交互与冗余背景信号 [6] - **动作引导自衍生蒸馏模块**通过自衍生学生模型与动态路由,在效率约束下复现教师的决策过程,训练时采用软门控联合优化,推理时通过阈值离散化以仅保留动作相关计算 [8] 实验验证 - **性能与效率平衡**:在LIBERO基准上,平均成功率为73.95%,仅比全量模型(74.95%)低1.0%,但计算量减少50.5%(FLOPs为49.5%),推理速度提升1.59倍 [9][12] - 在SIMPLER基准的视觉匹配场景中,平均成功率为74.08%,接近全量模型的74.75%,速度提升1.67倍,计算量仅为原模型的42.3% [10] - **消融实验**:图结构封装至关重要,将其中的GAT替换为MLP后,平均成功率从74.08%降至64.53%,抽屉操作任务性能暴跌25.4% [13] - **可视化分析**:适度跳过中间层可在保持73.9%成功率的同时将延迟降至28.3ms,且生成的机器人轨迹平滑,能有效规划无碰撞路径 [14][16] 关键结论与未来方向 - 该研究提出了首个以动作预测为导向的通用蒸馏框架,打破了视觉-语言模型的效率优化范式 [24] - 方法融合了图结构封装与动态路由,在自回归与扩散基VLA架构上均有效,计算量减少50%以上,速度提升最高1.67倍 [24] - 未来方向包括探索无教师或强化学习引导的变体,以及将长时序推理融入路由机制 [24]
快3000人了,这个具身社区有点干货~
具身智能之心· 2025-11-26 08:05
文章核心观点 - 文章旨在推广一个名为“具身智能之心”的垂直社区,该社区专注于具身智能领域,为行业人士、学者和学生提供技术交流、资源汇总和职业发展平台 [1] - 社区已汇集近3000名成员和200家相关公司与机构,形成覆盖产业、学术、求职的闭环生态 [17][87] 行业资源汇总 - 社区汇总了行业内在具身大脑和本体研发方面活跃的公司及实验室,并包含行业研报以判断发展周期 [1] - 汇总了近40+开源项目、近60+具身智能相关数据集、行业主流仿真平台及各类技术学习路线 [18] - 汇总了国内外具身智能高校实验室,涉及斯坦福大学、清华大学等知名机构,供升学参考 [17][20] - 汇总了国内外各类具身相关机器人公司,业务覆盖教育、宠物、工业、救援、物流等方向 [23] - 汇总了大模型、人形机器人等行业相关研报,以了解行业发展与工业落地情况 [25][26] - 汇总了机器人导航、动力学等方向的PDF书籍,以及机器人零部件制造厂商信息 [29][31] 技术模块与产品 - 本体方面推荐了SO-100系列、openarm系列、XLerobot系列等适合科研的产品 [2][4][6] - SO-100系列能上VA和VLA算法并实现常见功能,Openarm为双臂任务框架但缺乏移动能力,XLerobot具备一定移动能力适合移动操作任务 [2][4][6] - 其他开发平台如方舟无限、星海图等成本较高,需要较大资金投入 [8] - 算法层面收拢了VLA、VLN、运控、仿真、触觉感知等多个方向的技术路线 [9] - 部署层面目前主要集中在云端推理,边缘侧基于索尔的VLA模型方案逐渐落地,小鹏等公司基于自研芯片完成VLM/VLA部署 [9] 社区服务与活动 - 社区提供持续的直播分享,内容包括圆桌论坛,覆盖本体、数据到算法等主题 [11] - 直播主题目录涵盖数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、机器人模型、Sim2Real、具身世界模型等前沿领域 [12] - 为入门者整理了完整的技术路线和栈,为研究者提供产业体系和项目方案 [13][15] - 建立了与多家具身公司的岗位内推机制,帮助成员求职 [17] - 社区内部设有问答交流功能,成员可自由提问并获得行业专家解答 [77]
达摩院最新!RynnVLA-002:统一VLA与世界模型
具身智能之心· 2025-11-25 08:03
技术方案与核心创新 - 提出“视觉-语言-动作模型与世界模型双向增强”的核心思路,以解决现有方案在动作生成、环境理解与未来预测方面的单向能力瓶颈[3][4] - 采用统一多模态编码,使用四类Tokenizer将图像、文本、状态、动作信息编码到规模为65536的统一词汇表中,打破模态间的信息壁垒[7][8] - 设计双向增强架构,使VLA模型的视觉理解能力提升世界模型的场景预测精度,世界模型学到的物理动态规律优化VLA模型的动作规划逻辑,实现协同闭环[10][14] - 创新混合动作生成机制,包含针对模拟场景优化的离散动作生成和针对真实场景优化的连续动作生成,通过动作注意力掩码策略避免误差累积[11][12][17] 模型性能与实验结果 - 在LIBERO模拟基准测试中,无预训练状态下连续动作版本平均成功率达97.4%,其中空间任务成功率99.0%、物体任务成功率99.8%[19][20] - 离散动作版本在LIBERO基准平均成功率为93.3%,长序列任务成功率达87.6%[20] - 在真实机器人SO100机械臂任务中,“将方块放入圆圈”任务在多目标场景成功率90%,含干扰物场景成功率80%[23][24] - “将草莓放入杯子”任务在单目标与多目标场景成功率均达80%,展现出强鲁棒性[23][24] - 关键消融实验表明,世界模型的融入使模拟场景中连续动作成功率从91.6%提升至94.6%,真实场景成功率从不足30%突破至80%以上[27][28] 技术优势与产业价值 - 该方案实现了“感知-理解-行动-预测”的全链路打通,为机器人操控技术从实验室走向产业化提供了参考范本[3][37] - 模型不依赖大规模机器人预训练数据,降低了真实场景应用门槛,无预训练也能实现高效落地[19][23][40] - 混合动作生成设计兼顾了模拟场景的高精度需求与真实场景的泛化与速度要求,实现场景全覆盖[11][40] - 架构通过双向增强激活双模型潜力,解决了单一模型“能做不能想”或“能想不能做”的行业痛点[37][40]