FAST(频域动作序列分词)动作编码技术
搜索文档
π0-FAST正式集成到LeRobot中!pytorch版本来了
具身智能之心· 2026-01-14 17:00
模型技术概览 1. π0-FAST是一款融合了视觉语言模型能力与FAST(频域动作序列分词)动作编码技术的创新模型[1] 2. 该模型使自回归视觉语言动作模型能够训练高精度操作任务,这是传统方法无法实现的[1] 3. 在训练速度上,相比π0等扩散模型方法,π0-FAST实现了高达5倍的提升[1] 技术方案与优势 1. 传统机器人动作编码方法,如按维度或按时间步的离散化方案,在处理需要精确控制和高频响应的复杂灵巧技能任务时会迅速失效[3] 2. π0-FAST通过信号处理方法压缩动作序列,生成可自回归预测的密集动作词元序列,其预测方式与语言词元完全一致,从而解决了传统方法的难题[4] 框架集成与实现 1. π0-FAST模型目前已经集成到LeRobot机器人框架中[2] 2. LeRobot框架已基本支持pi系列工作,包括π0、π0.5、π0-fast,同时国产模型WALL-OSS也被集成进去[7] 3. 原版π0-FAST实现仅支持JAX框架,本次集成用PyTorch进行了重构,包含了交叉熵损失目标、FAST分词方案以及KV缓存等推理优化技术[6] 资源与文档 1. 相关技术文档可在Hugging Face的LeRobot页面查阅[9] 2. Pi0Fast基础模型检查点已发布在Hugging Face平台上[9]