刚刚！DeepSeek，硬核发布！

DeepSeek开源动态 - 开源周第三天宣布Optimized Parallelity Strategies，旨在提高计算效率、减少资源浪费并最大化系统性能，通过任务分配、资源协调和通信优化实现高效并行执行 [2][3] - 开源周第四天再度发布优化并行策略，包括DualPipe、专家并行负载均衡器(EPLB)及性能分析数据，需根据任务类型、数据规模和硬件环境灵活选择 [5] - 此前开源的DeepEP在20分钟内获得超1000个GitHub Star，该库为MoE模型提供Expert Parallelism通信基础，支持FP8低精度计算并优化非对称带宽转发场景 [5] - 连续开源FlashMLA（Hopper GPU高效译码内核）、DeepGEMM（支持稠密/MoE模型的FP8计算库）等工具，强化AI模型训练与推理支持 [9] 英伟达技术突破 - 开源首个Blackwell架构优化的DeepSeek-R1-FP4模型，推理速度达21,088 token/秒（较H100提升25倍），每token成本降低20倍 [7][8] - FP4量化技术将Transformer线性算子权重压缩至4位，显存需求减少1.6倍，在MMLU基准测试中达到FP8模型99.8%性能 [7][8] - 结合TensorRT-LLM部署，需8颗B200 GPU实现张量并行，供应商可提供每百万token 0.25美元的低成本服务 [8] 商业策略调整 - 北京时间每日00:30-08:30下调API价格，DeepSeek-V3降至原价50%，DeepSeek-R1低至25%（降幅75%），鼓励夜间资源利用 [6]