具身智能之心 - 财报，业绩电话会，研报，新闻

具身智能之心

搜索文档

具身智能之心· 2025-11-27 08:04

行业技术定义与核心 - 具身导航是具身智能的核心领域，涉及语言理解、环境感知、路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向，要求智能体在陌生三维环境中，仅凭目标描述即可自主完成环境探索与路径规划 [2] - 该技术实现了从依赖显式指令的“听懂指令走对路”到自主决策的“看懂世界自己找路”的跃迁，背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地与应用场景 - 在终端配送场景，美团无人配送车通过动态路径重规划在复杂城市环境中执行任务，Starship Technologies的园区配送机器人已在欧美高校和社区部署 [4] - 在医疗、酒店及餐饮场景，嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列，已实现药品、文件和餐食的自主配送 [4] - 随着人形机器人发展，导航技术适配性升级成为新焦点，宇树科技Unitree系列通过Habitat预训练完成基础导航任务，智元机器人在工业场景集成该模块，特斯拉Optimus展示了“取放电池”等端到端操作能力 [4] 技术生态与评测体系 - 基于Habitat仿真的具身导航生态完整记录了领域技术迭代轨迹，自2020年CVPR提出点导航基准以来，评测体系逐步扩展至图像导航、目标导航及移动抓取任务 [5] - 技术进展呈现明显梯度：点导航和闭集物体导航接近人类表现，但开放词汇物体导航和动态障碍物场景仍面临重大挑战 [5] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供了方法论参考，CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [5] 三代技术路线迭代 - **第一代端到端方法**：基于强化学习与模仿学习框架，在点导航与闭集图片导航任务中取得突破，部分方法的SPL指标已逼近人类表现 [6] - **第二代模块化方法**：通过显式构建语义地图将任务分解，在零样本目标导航任务中展现显著优势，在未见物体场景下成功率提升明显 [8] - **第三代LLM/VLM融合方法**：引入大语言模型的知识推理能力生成语义指导的探索策略，并通过视觉语言模型提升开放词汇目标匹配精度，当前研究重点在于设计场景表征接口 [10] 相关课程内容与结构 - 课程旨在解决目标驱动导航领域技术栈多、入门困难、知识碎片化、缺乏实战指导等挑战 [11] - 课程特点包括：基于Just-in-Time Learning理念快速入门、帮助学员构建领域框架与研究能力、理论结合实践完成闭环 [11][12][13] - 课程大纲共六章，系统覆盖语义导航核心框架、Habitat仿真生态、端到端导航方法论、模块化导航架构、LLM/VLM驱动的导航系统以及大作业 [15][17][18][19][20][21][22] - 大作业聚焦VLFM算法复现与真实场景部署，实践流程包括占据地图构建、边缘探索点生成与排序、值地图生成、导航策略构建及算法改进与实机部署探索 [23][27] - 课程为期3个月，采用离线视频教学配合VIP群答疑，进度安排覆盖从概述、仿真环境到三代核心方法的理论与实战，最终完成大作业 [28][29]

AAAI'26 Oral | 华科&小米提出新范式：教机器人「时间管理」，任务效率提升30%以上！

具身智能之心· 2025-11-26 18:00

文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型，通过将运筹学知识引入具身智能任务规划，使机器人能够像人类一样进行并行任务调度，从而显著提升任务执行效率[2] - 该方法的核心创新在于“大模型+求解器”的协同架构，让大语言模型负责语义理解和场景感知，而外部优化求解器负责复杂的数学规划，实现了任务完成效率30.53%的提升[2][16] - 此项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越，为开发真正具备“时间管理”能力的智能管家奠定了基础[22] 研究背景与痛点 - 现有具身智能机器人通常只能按顺序串行完成任务，缺乏人类“统筹方法”的能力，导致执行效率低下[3][5] - 根本原因在于现有机器人缺乏运筹学知识，无法识别哪些任务可并行处理，哪些任务必须独占注意力，同时还需在复杂3D场景中精准定位物体[6] 数据集创新 - 研究团队构建了首个融合运筹学知识的大规模3D具身数据集ORS3D-60K，包含4,376个真实室内场景和60,825个复合任务[10][12] - 该数据集平均指令长度高达311个单词，远超其他数据集，并且每条任务都经过运筹学求解器验证，提供了数学上的最优调度方案作为标注[12] - 数据集根据运筹学原理将子任务细分为非并行化子任务和并行化子任务，迫使模型进行全局最优规划而非局部决策[12][15] 技术方法与架构 - GRANT模型包含四个核心组件：3D场景编码器、大语言模型、调度令牌机制和3D定位头[16][19] - 调度令牌机制是关键创新，LLM不直接计算时间，而是预测子任务属性，然后通过特殊令牌调用外部优化求解器进行动态规划计算最优时间表[16][19] - 这种架构实现了“懂人话、认东西”与“算时间、排工序”的专业分工，结合了多模态理解与数学优化优势[19] 性能表现与实验结果 - 在ORS3D-60K数据集上，GRANT在综合性能指标上达到53.49，相比基线方法提升10.46个百分点[18] - 任务执行效率相比基线方法提升30.53%，同时3D定位精度不仅没有牺牲反而提升1.38%[19] - 实际案例显示，模型能将总耗时从74分钟压缩至45分钟，效率提升39%，并在每一步都实现高精度3D物体定位[21]