Workflow
DBC V3.1版本
icon
搜索文档
大厂怎么看DeepSeek-V3
2025-08-25 17:13
涉及的行业或公司 * 行业涉及人工智能芯片、大模型训练与推理、多模态AI应用[1][2][3][8][22][29][30] * 公司包括DeepSeek(深度求索)、华为(昇腾)、寒武纪、阿里巴巴(千问)、英伟达[1][2][8][25][26][29] 核心观点和论据 技术创新与标准制定 * DeepSeek定义U18M零IP8格式 旨在为国产芯片制定新标准 降低训练侧显存占用20%-30% 提升训练效率30%-40%[1][2] * 新格式通过将128x128量化块拆分成128x4小块减少显存占用和计算开销 优化反向量化过程[4] * 采用混合精度策略 敏感参数(如attention)保留FP16高精度计算 非敏感参数采用U18M零IP8处理[5] * 新协议将通过OCP扩展为国产芯片的RP8协议标准 头部厂商将引领变革 通过AI芯片联盟推动标准化[1][10] 国产芯片发展现状与挑战 * 推理侧国产芯片将率先采用FP8格式 预计半年到一年内落地 显著降低成本[8] * 训练侧尚无国产厂商能完全独立完成训练 算子覆盖率仅约50% 存在梯度量化误差和张量扩展不成熟问题[8][9] * 大规模应用预计需等到2025年第二季度或第三季度[8] * 现有硬件可通过软件兼容FP8但性能受限 真正量产需等待下一代硬件支持 周期约一年[10][11][12] 模型性能与市场竞争 * DBC V3.1版本引入混合推理 增强agent能力 增加8,400亿TOKEN数据集 提升长文本、代码理解和数学能力(从70分提高到87分)[3][25] * 开始基于国产芯片进行FP8兼容 价格下降 接近全球顶尖水平 处于全球前六位置 与千问3相当[3][25][26] * 国产文本模型单一模态能力接近海外顶尖模型 但尚未实现全模态 与国际顶尖水平相差5-6分[26][27][28] 多模态发展与算力需求 * 2026年第一季度头部国产AI模型将逐步进入多模态时代 对算力需求依然较高[3][30] * 国外顶尖模型(如GPT-5、Claude 4)参数规模达万亿级别 训练集群庞大(如谷歌使用50万张GPU 其中25万张H100)[29] * 国内算力资源有限(通常8-9万到十几万张训练卡) 通过提升训练效率、优化算法和数据集提高性能[29] * 多模态发展将带来参数量和数据量增加 对高性能计算卡需求持续增长[30] 产业影响与生态建设 * SP8数据格式将提升国产大模型训练效率 缩小与国际领先水平差距 通过统一标准加速技术普及与应用[6][7] * 验证周期约两个季度 预计2026年第一季度大厂发布支持新格式模型 中小厂稍滞后[14] * 短期内对英伟达卡影响不大(技术验证需半年 产业化需一年) 2026年第三季度后对英伟达推理卡(如H20、L40)产生较大影响[17][18] * 现有存量H800、A800、H100等设备将通过算法和技术手段挖掘潜力(提升20%-30%)[19] 其他重要内容 * FV8数据格式是官方IP8子集 可在NV显卡上运行 提升显存利用率和通信效率20%-30%[21] * FP8格式无法全量覆盖所有参数 在科学运算、金融、医学等对精度要求极高领域表现不佳 可能导致训练不稳定[23][24] * 国产FPGA需补齐CUDA生态通用算子 支持ONNX格式 优化量化版本算法 解决集群规模扩大后的系统性问题[20] * 多模态应用中 视频生成需大量显存(一分钟视频占用几十GB) 需针对视频和图像生成进行专门调整[22]