Workflow
Astra双模型架构
icon
搜索文档
我在哪?要去哪?要怎么去?字节跳动提出Astra双模型架构助力机器人自由导航
机器之心· 2025-06-23 17:39
传统导航瓶颈与Astra的创新 - 传统导航系统面临目标定位、自我定位与路径规划三大核心挑战,在复杂场景中依赖人工地标如QR码,模块化设计导致效率低下 [3] - 字节跳动研发的双模型架构Astra突破传统瓶颈,采用System 1/System 2理念:Astra-Global处理低频定位任务,Astra-Local执行高频路径规划与里程计估计 [4][5] - Astra-Global作为多模态大语言模型,通过混合拓扑语义图实现视觉-语言精准定位,支持自然语言指令解析如"找到打印机" [8][11] Astra-Global技术细节 - 离线构建混合拓扑语义图包含节点(V)、几何连通边(E)和语义地标(L),通过SfM估计6自由度相机位姿,地标共视图增强场景理解 [10] - 采用两阶段定位流程:粗定位阶段匹配地标与预建地图,精定位阶段直接输出预测位姿,仓库环境位姿精度比传统方法提升30%+ [11][20] - 以Qwen2.5-VL为骨干,结合SFT和GRPO训练,零样本场景定位准确率达99.9%,超越SFT-only方法的93.7% [12] Astra-Local技术实现 - 4D时空编码器通过ViT和Lift-Splat-Shoot技术将2D图像转为3D voxel特征,自监督学习结合伪深度标签优化 [15] - 规划头采用Transformer流匹配生成轨迹,掩码ESDF损失使OOD数据集碰撞率显著低于ACT和扩散策略方法 [16][23] - 里程计头融合IMU/车轮数据,旋转估计精度提升后轨迹误差降至2%,多传感器融合增强尺度稳定性 [17][23] 实验验证与性能 - Astra-Global在文本/图像定位中展现优势,精准捕捉房间号等细节,视点变化下位姿误差范围1米/5度 [20] - 仓库场景中规划头碰撞率低于基线方法,里程计头加入IMU后轨迹误差改善至2%水平 [23] - 家庭环境测试显示SFT+GRPO方法定位准确率99.9%,显著优于纯监督学习的93.7% [12] 应用前景与改进方向 - 潜在应用场景扩展至商场导购、医院物资运输和图书馆书籍整理等复杂室内环境 [25] - 需改进地图表示的语义细节保留,未来研究替代压缩方法并引入主动探索机制 [25] - Astra-Local将增强OOD场景鲁棒性,集成指令跟随能力以实现自然语言交互 [26]