高德发布两款ABot系列基座模型，达成全球首个具身操作和具身导航“双SOTA”

公司技术发布 - 阿里巴巴旗下高德公司正式发布具身操作基座模型ABot-M0与具身导航基座模型ABot-N0 [1] - 高德成为全球首个在具身导航与具身操作上同步达到SOTA（目前最好、最先进的模型）的厂商 [1] - 此次发布补齐了具身机器人规模化落地的两块核心能力——操作的通用性和导航的长程性 [1] ABot-M0：具身操作基座模型 - ABot-M0是全球首个统一架构的机器人基础模型，旨在让机器人拥有“通用大脑” [2] - 该模型从“数据统一—算法革新—空间感知”三个方面进行了系统性重构，以提升在多样化机器人形态和任务场景下的泛化能力 [2] - 模型基于全球开源资源，整合超过600万条真实操作轨迹，构建了目前规模最大的通用机器人数据集 [5] - 算法上提出了全球首个动作流形学习（AML）算法，使模型能够直接预测结构合理、物理可行的动作序列 [5] - 引入3D感知模块以增强模型对空间语义的理解，在复杂环境中实现更精准的操作决策 [5] - 在Libero-Plus基准测试中，平均任务成功率达到80.5%，较业界先进方案pi0提升近30% [5] - 在包含复杂任务组合与动态场景扰动的设定下，该模型在Libero、Libero-Plus、RoboCasa基准测试中的平均任务成功率均达到SOTA [5] ABot-N0：具身导航基座模型 - ABot-N0是全球首个五大导航任务统一的全栈导航基座模型 [9] - 该模型在单一模型中完整集成了Point-Goal（点位导航）、Object-Goal（目标导航）、Instruction-Following（指令跟随）、POI-Goal（兴趣点导航）与Person-Following（人物跟随）五大导航任务 [9] - 其“全任务一统”的设计有效突破了传统架构中任务割裂的瓶颈，为执行长程复杂任务提供了可行的解决方案 [9][10] - 模型采用层次化的“大脑‑动作”设计哲学，并利用强化学习将导航决策对齐到人类偏好的行为价值 [12] - 依托高德长期沉淀的场景资产，构建了业内最大规模的具身导航数据引擎，涵盖约8000个高保真3D场景等海量时空数据与近1700万条专家示例 [12] - 在CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大权威基准测试中全面刷新了世界纪录 [12] - 在SocNav闭环仿真中，成功率（SR）飙升40.5%，在HM3D-OVON评测中成功率（SR）提升8.8% [12] - 在CityWalker的Point-Goal任务评测中，ABot-N0的成功率（SR）达到88.3%，远高于对比模型如CityWalker的47.8% [14] 行业意义与技术路径 - ABot-M0探索了一条通向通用具身智能的技术路径，为未来开放、共享的机器人生态提供了可复现、可扩展的基础支持 [8] - 高德提出了可落地的Agentic Navigation System具身导航系统框架，形成从“读懂指令”到“长程复杂任务执行”的闭环能力架构 [14] - 该系统已成功部署于真实四足机器人平台，并在边缘侧实现了高效推理与闭环控制，验证了其在动态现实环境中的泛化性能与工业级稳定性 [14]