Astribot S1全身体机器人平台
搜索文档
全身操控!星尘推出异步快慢的VLA策略,端到端训练+3 倍于同类模型的推理速度
具身智能之心· 2025-12-26 08:55
文章核心观点 - Astribot团队提出的DuoCore-FS框架通过“快慢双路径异步架构”等技术,首次实现了3B参数大模型与30Hz高频全身操控的兼顾,为解决大模型语义推理速度与机器人实时控制需求之间的矛盾提供了新方案 [1] 问题根源:大模型驱动机器人操纵的挑战 - **频率耦合瓶颈**:传统VLA系统将视觉语言模型推理与动作生成绑定在同一频率,大模型(尤其是3B级以上)的低推理速度(通常<15Hz)直接限制了全身操控的响应频率,无法满足多关节动态场景的实时需求 [2][3] - **全身操控表征难题**:全身操纵涉及25+自由度(DoF)的关节协调,高维动作空间导致传统离散token化方案出现组合爆炸,难以实现紧凑统一的动作表征 [4][5] - **异步训练推理错位**:现有异步双系统架构多采用固定频率配比或级联设计,缺乏真正的并行执行机制,且端到端训练缺失导致高层语义推理与底层实时控制难以高效协同 [6][7] 方案设计:DuoCore-FS的三层技术闭环 - **第一层:异步双路径架构**:设计真正并行的快慢双系统,实现语义推理与动作生成的频率解耦 [9] - **慢路径(1-3Hz)**:基于3B参数视觉语言模型(如PaliGemma-3B、Qwen2.5-VL-3B),处理视觉观测、本体感受与自然语言指令,生成高层任务意图指导 [9] - **快路径(25-30Hz)**:采用轻量级扩散策略网络,整合桥接缓冲的最新语义表征与实时感知数据,生成连续、协调的全身动作块,保障实时控制响应 [9] - **核心差异**:实现完全并行异步执行,快路径频率不受慢路径推理速度约束,区别于FiS-VLA的固定频率配比和Hume的级联设计 [9] - **第二层:关键技术组件** [9] - **模态对齐桥接缓冲**:作为快慢系统的交互接口,慢路径以1-3Hz刷新,快路径以25-30Hz读取,既传递高层语义指导,又避免频率耦合,同时防止关键任务信息丢失 [9][10] - **全身动作token化**:针对25DoF全身动作空间,设计几何感知的RVQ-VAE token化方案 [10] - 将29维动作向量拆分为位置增量、姿态增量、夹爪开度三个语义组件 [10] - 通过独立1D卷积编码器处理各组件,再经残差向量量化生成离散token,每个流维护1024规模码本 [10] - 位置与夹爪分支采用L2重建损失,姿态分支采用SO(3)测地线距离损失,确保token化表征的几何一致性 [10] - **跨时标联合训练**:分两阶段实现端到端优化 [10] - 第一阶段独立训练慢路径视觉语言模型,优化语义推理与动作token预测,对齐视觉-语言-动作模态 [10] - 第二阶段引入跨时标采样策略,模拟真实部署中的异步延迟,联合训练快慢路径,采用加权损失强化快路径的精准控制能力 [10] - **第三层:异步推理流水线**:部署阶段采用全异步执行流程优化推理效率 [11] - 慢路径采用Jacobi式并行解码策略加速视觉语言模型推理,降低语义更新延迟 [13] - 快路径通过TensorRT编译BF16精度模型,确保25-30Hz稳定输出 [13] - 缓冲容错机制使快路径优先使用缓冲中最新语义表征,即使慢路径未更新,仍可基于历史有效信息维持稳定控制 [13] 性能验证结果 - **核心性能突破**:在爆米花舀取与饮料柜关门任务中,DuoCore-FS表现远超同类模型 [12] - **速度提升**:推理频率达32.3Hz,是π₀模型(12.5Hz)的2.6倍,满足全身操控实时需求 [15] - **精度保持**:整体成功率90%,超越基线模型,且在细粒度动作中表现稳定 [15] - **泛化能力**:在分布外场景(如杯子置于桌沿等未见过位置)中,整体成功率50%,远超基线模型的10% [15] - **异常鲁棒性**:在杯子倾倒、倒置、被移走等异常场景中,检测与恢复成功率95.8%,略高于基线的91.7% [15] - **关键能力验证** [16] - **语言跟随**:在相同视觉观测下,执行“关门”指令的成功率达42.9%,是基线模型(14.3%)的3倍,证明慢路径语义推理的有效性 [17] - **token化效率**:RVQ-VAE token化方案的平均token长度仅36,远短于FAST token化的81.12,推理频率提升3.4倍,且任务成功率达83.3%(FAST方案为0%) [18] 局限与未来方向 - **慢路径推理加速**:未来可探索一致性解码等技术,进一步降低视觉语言模型推理延迟,提升语义更新频率 [18] - **快路径效率优化**:减少扩散模型的流匹配步骤,探索单步生成方案,突破30Hz频率上限 [18] - **桥接机制升级**:设计更精细的模态交互机制,强化快慢路径的语义对齐,提升复杂任务成功率 [18] - **多模态融合拓展**:融入力触觉、听觉等信号,适配接触密集型任务,进一步提升真实场景鲁棒性 [18] - **任务覆盖扩展**:需在更多动态场景、长时程任务中验证框架的通用性与稳定性 [18] 范式价值与行业影响 - DuoCore-FS的核心贡献在于建立了“异步架构-模态对齐-token化-联合训练”的完整技术链路,通过真正并行的快慢双路径破解频率耦合瓶颈,通过RVQ-VAE token化解决全身操控表征难题,通过跨时标训练消除异步执行的训练推理错位 [17] - 其开源的训练、推理与部署方案已集成于Astribot机器人平台,为机器人学、计算机视觉、自然语言处理等领域提供了统一研究平台,推动大模型驱动的机器人操纵从实验室走向真实场景,加速通用自主机器人的产业化落地 [17]