Psyche Network

搜索文档
个人开发者训400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署
量子位· 2025-05-15 16:37
核心观点 - Nous Research推出Psyche Network 旨在打破科技巨头算力垄断 让个人开发者和小团体也能训练超大规模AI模型 [1][4] - Psyche基于Deepseek V3 MLA架构 首次测试网运行即对40B参数LLM进行预训练 可在单个H/DGX或3090 GPU上运行 [2][21] - 通过DisTrO分布式训练优化器和P2P网络架构 实现去中心化训练 通信数据量降低90%以上 [9][12][13] 技术架构 - **DisTrO优化器**:采用梯度压缩和异步更新策略 突破带宽限制 使去中心化训练成为可能 [9] - **P2P网络堆栈**:自定义点对点协议 无需中心服务器 家用宽带GPU也能稳定参与训练 [12][13][14] - **系统三组件**:coordinator协调训练状态 clients负责训练验证 data provider提供训练数据 [17][18][19] 模型训练 - **40B参数LLM预训练**:采用Deepseek V3 MLA架构 通过低秩压缩和矩阵分解降低计算复杂度 [21][22] - **数据集**:使用FineWeb(14T) FineWeb-2(4T)和The Stack v2(1T)等大规模语料 [23] - **分布式策略**:模型并行(128分片)与数据并行结合 动态批量调整使效率提升25% [27] 行业影响 - 挑战Meta Google等巨头在大模型训练领域的主导地位 [20] - 与Prime Intellect的INTELLEC-2共同推动分布式训练成为行业新趋势 [25][26] - 未来计划整合监督微调 强化学习等完整训练流程 [29]