训练效率提升3.5倍!京东云率先支持具身智能千卡开源训练框架
中金在线·2025-12-08 14:04

京东云JoyBuilder平台升级 - 京东云JoyBuilder模型开发平台完成全新升级,成功支撑业界顶尖模型GR00T N1.5的千卡训练 [1] - 该平台成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台 [1] - 平台训练效率较开源社区版本提升3.5倍,1亿+数据的千卡训练时间从15小时缩短至22分钟,提速40倍 [1][6] 平台核心优势与全栈优化 - 平台围绕具身智能模型训练进行全栈优化,主要解决数据供给读取慢、算力效率低下及多环节协同性能瓶颈等工程落地挑战 [3] - 在具身数据链路优化方面,通过CPU数据处理与GPU计算异步执行减少等待时间,并采用自研高性能并行文件系统云海JPFS,在1024卡集群上读取带宽超过400GB/s [3][4] - 在具身模型计算优化方面,针对主流开源VLA模型的计算特点,从Attention层、Token裁剪和训练后量化等多方位进行极致优化 [4] - 在具身模型基础设施方面,通过搭建3.2T RDMA后端网络,并基于多轨道优化、拓扑感知调度与智能震荡抑制,保障千卡间集合通信的高吞吐与低延迟及长周期训练稳定运行 [4] 对开源训练框架的支持与效率提升 - 平台支持业界最主流的LeRobot训练数据最新协议,支持一键升级至“多episode合并分片”的V3协议,解决原生框架数据链路低效问题 [5] - 通过并行流水线和高效索引查询优化,将训练数据供给速度提升超10倍,显著提升云侧算力利用率和训练效率 [5] - 基于对主流开源具身VLA模型的极致优化,采用动态计算优化,引入变长Flash-Attention与Data Packing技术,训练提速188% [8] - 通过仅对有效token进行计算,减少填充带来的算力损耗,Token裁剪优化训练提速165%以上 [8] - 使用训练后细粒度FP8量化,在基本保持模型精度前提下,将权重压缩超过36%、提速140%以上 [8] 公司AI产品矩阵与行业影响 - 基于京东集团复杂场景实践,京东云已构建一站式大模型产品矩阵,涵盖从底层智算基础设施、中间层模型服务和工具到上层Agent应用开发 [8] - 该产品矩阵旨在支持具身智能企业快速部署大模型及AI应用,共同推动机器人更好地理解和服务物理世界 [8]

训练效率提升3.5倍!京东云率先支持具身智能千卡开源训练框架 - Reportify