Workflow
京东云JoyBuilder模型开发平台
icon
搜索文档
训练效率提升3.5倍!京东云率先支持具身智能千卡开源训练框架
中金在线· 2025-12-08 14:04
京东云JoyBuilder平台升级 - 京东云JoyBuilder模型开发平台完成全新升级,成功支撑业界顶尖模型GR00T N1.5的千卡训练 [1] - 该平台成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台 [1] - 平台训练效率较开源社区版本提升3.5倍,1亿+数据的千卡训练时间从15小时缩短至22分钟,提速40倍 [1][6] 平台核心优势与全栈优化 - 平台围绕具身智能模型训练进行全栈优化,主要解决数据供给读取慢、算力效率低下及多环节协同性能瓶颈等工程落地挑战 [3] - 在具身数据链路优化方面,通过CPU数据处理与GPU计算异步执行减少等待时间,并采用自研高性能并行文件系统云海JPFS,在1024卡集群上读取带宽超过400GB/s [3][4] - 在具身模型计算优化方面,针对主流开源VLA模型的计算特点,从Attention层、Token裁剪和训练后量化等多方位进行极致优化 [4] - 在具身模型基础设施方面,通过搭建3.2T RDMA后端网络,并基于多轨道优化、拓扑感知调度与智能震荡抑制,保障千卡间集合通信的高吞吐与低延迟及长周期训练稳定运行 [4] 对开源训练框架的支持与效率提升 - 平台支持业界最主流的LeRobot训练数据最新协议,支持一键升级至“多episode合并分片”的V3协议,解决原生框架数据链路低效问题 [5] - 通过并行流水线和高效索引查询优化,将训练数据供给速度提升超10倍,显著提升云侧算力利用率和训练效率 [5] - 基于对主流开源具身VLA模型的极致优化,采用动态计算优化,引入变长Flash-Attention与Data Packing技术,训练提速188% [8] - 通过仅对有效token进行计算,减少填充带来的算力损耗,Token裁剪优化训练提速165%以上 [8] - 使用训练后细粒度FP8量化,在基本保持模型精度前提下,将权重压缩超过36%、提速140%以上 [8] 公司AI产品矩阵与行业影响 - 基于京东集团复杂场景实践,京东云已构建一站式大模型产品矩阵,涵盖从底层智算基础设施、中间层模型服务和工具到上层Agent应用开发 [8] - 该产品矩阵旨在支持具身智能企业快速部署大模型及AI应用,共同推动机器人更好地理解和服务物理世界 [8]
京东云JoyBuilder升级,具身智能模型训练效率提升3.5倍
新浪财经· 2025-12-08 11:14
京东云JoyBuilder平台升级 - 京东云JoyBuilder模型开发平台迎来全新升级,成功支撑业界顶尖模型GR00T N1.5的千卡训练 [1][3] - 该平台成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台 [1][3] - 平台训练效率较开源社区版本提升3.5倍 [1][3] 训练效率与性能突破 - 通过软硬件深度调优和算法突破,大幅提升模型训练效率与稳定性 [1][3] - 针对1亿以上数据量的千卡训练,时间从15小时缩短至22分钟 [1][3] - 此举加速了具身智能技术迈向规模化落地 [1][3] 全栈优化技术细节 - 在具身数据链路优化方面,重构数据预处理与加载流程,实现CPU数据处理与GPU计算异步执行,减少等待时间 [1][3] - 自研高性能并行文件系统云海JPFS,通过分布式元数据管理与智能预取支持高并发访问 [1] - 在1024卡集群上,读取带宽超过400GB/s,保障数据持续高速供给 [1] 模型计算与基础设施优化 - 在具身模型计算优化方面,针对主流开源VLA模型,从Attention层、Token裁剪和训练后量化等多方位进行极致优化 [2][4] - 通过搭建3.2T RDMA后端网络,并应用多轨道优化、拓扑感知调度与智能震荡抑制,保障千卡间集合通信的高吞吐与低延迟 [2][4] - 基础设施支持单点故障快速恢复,保障长周期训练稳定运行 [2][4] 平台综合能力与行业地位 - 基于云原生的AI数据湖优化了数据调度与流水线,提升端到端处理效率 [2][4] - 平台支持业界当前最主流的LeRobot训练数据最新协议 [2][4] - 基于全链路数据处理、模型计算效率和AI基础设施的全面优化,巩固了其行业领先地位 [2][4]