人工智能架构硬件

搜索文档
梁文锋署名,最新论文发布
新华网财经· 2025-05-16 13:55
近日 DeepSeek创始人梁文锋等人发表了一篇名为 《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures(深入了解DeepSeek- V3:人工智能架构硬件的扩展挑战与思考)》 的回顾性论文 。 这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构,重点介绍了一些关 键创新,如提高内存效率的多头潜意识(MLA)、优化计算与通信权衡的专家混合(MoE) 架构、释放硬件能力全部潜力的FP8混合精度训练,以及最大限度降低集群级网络开销的多平 面网络拓扑结构。 来源:财联社 关注" 新华网财经 "视频号 更多财经资讯等你来看 小米汽车销量已连续3周环比下滑 金价连续下跌!网友直呼:亏麻了 往期推荐 ...