DeepSeek V3到V3.1，走向国产算力自由

DeepSeek-V3.1技术升级 - 公司发布V3.1版本采用混合推理架构，同时支持思考模式和非思考模式，提高思考效率并减少token消耗和时间成本[6] - 模型通过后训练优化提升Agent能力，外扩训练增加840B token，上下文长度和两种模式均达到128k[8] - API Beta接口支持strict模式Function Calling，提升工程可靠性和企业易用性，并增加对Anthropic API格式支持以渗透其企业市场[8][9] UE8M0 FP8超低精度创新 - 公司采用UE8M0 FP8 Scale参数精度，这是一种对数数值系统（LNS）特化实现，用于存储缩放因子而非直接权重[11][13][24] - 该格式兼容MXFP8标准，可在支持该标准的硬件（包括英伟达Blackwell和国产GPU）上直接运行，减少75%内存使用并提升训练推理效率[4][13][27] - 超低精度设计覆盖极宽动态范围，通过软件定义适配国产芯片，使国产GPU能高效运行大模型[13][24][27] 算力自主战略路径 - 公司分两阶段突破：先通过魔改PTX指令集最大化利用英伟达GPU算力利用率，再通过UE8M0 FP8降低算力物理需求适配国产芯片[4][26][27] - 软硬件协同优化构建"算力无关"模型生态，长期减少对进口先进GPU依赖并推动国产芯片生态发展[4][27][32] - 超低精度技术加快国产下一代GPU推出（如寒武纪、沐曦、燧原、昇腾），形成去英伟达化路线[14][27][32] 对英伟达市场的影响 - UE8M0 FP8技术降低对H20/B30等缩水版芯片需求，国产芯片生态完善将削弱CUDA锁定效应[29][30][32] - 英伟达优势仍存于G200的更大带宽、更强互联和显存以及CUDA生态绑定，但低成本训练路径弱化其必选性[32] - 公司技术路线可能影响英伟达中国市场策略，中长期国产方案更受成本敏感企业青睐[29][30][32]