Parallel Computing

搜索文档
ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
机器之心· 2025-08-02 12:43
扩散模型加速技术研究 核心观点 - 扩散模型因逐步去噪机制导致推理延迟高,成为部署效率瓶颈[2] - 现有加速方法(数值求解器、模型蒸馏、并行计算)均存在质量损失或成本过高问题[3] - 西湖大学提出EPD-Solver创新方案,融合三类优势,在3-5步采样下保持高质量生成[3][4] 技术原理 - 基于向量值函数中值定理,通过并行计算多个中间时刻梯度并加权融合[9][10] - 参数集包含中间时刻τₙᵏ、融合权重λₙᵏ、偏移量δₙᵏ和扰动参数oₙ[11][15] - 采用蒸馏框架优化参数:生成教师轨迹后最小化学生轨迹差异[16] 性能优势 - CIFAR-10测试中EPD-Solver在3步采样时FID仅10.40,显著低于DDIM的93.36和EDM的306.2[20] - ImageNet 64×64条件生成任务中,3步采样FID为18.28,优于AMED-Solver的38.10[20] - 插件版本EPD-Plugin在LSUN Bedroom数据集3步采样FID达13.21,较AMED-Solver提升45分[21] 应用特性 - 完全并行化设计,额外梯度计算不增加单步推理延迟[14][28] - 可插拔集成至现有求解器如iPNDM,无需模型重训练[17][28] - Stable Diffusion v1.5上8-20步生成质量超越DPM-Solver++(2M)[25] 行业意义 - 突破低延迟采样下速度与质量的权衡瓶颈[27] - 为游戏、VR、数字内容创作等实时生成场景提供新解决方案[2][28] - 实验证明并行计算是扩散模型高效采样的潜力方向[28]
刚刚!DeepSeek,硬核发布!
券商中国· 2025-02-27 11:35
DeepSeek开源动态 - 开源周第三天宣布Optimized Parallelity Strategies,旨在提高计算效率、减少资源浪费并最大化系统性能,通过任务分配、资源协调和通信优化实现高效并行执行 [2][3] - 开源周第四天再度发布优化并行策略,包括DualPipe、专家并行负载均衡器(EPLB)及性能分析数据,需根据任务类型、数据规模和硬件环境灵活选择 [5] - 此前开源的DeepEP在20分钟内获得超1000个GitHub Star,该库为MoE模型提供Expert Parallelism通信基础,支持FP8低精度计算并优化非对称带宽转发场景 [5] - 连续开源FlashMLA(Hopper GPU高效译码内核)、DeepGEMM(支持稠密/MoE模型的FP8计算库)等工具,强化AI模型训练与推理支持 [9] 英伟达技术突破 - 开源首个Blackwell架构优化的DeepSeek-R1-FP4模型,推理速度达21,088 token/秒(较H100提升25倍),每token成本降低20倍 [7][8] - FP4量化技术将Transformer线性算子权重压缩至4位,显存需求减少1.6倍,在MMLU基准测试中达到FP8模型99.8%性能 [7][8] - 结合TensorRT-LLM部署,需8颗B200 GPU实现张量并行,供应商可提供每百万token 0.25美元的低成本服务 [8] 商业策略调整 - 北京时间每日00:30-08:30下调API价格,DeepSeek-V3降至原价50%,DeepSeek-R1低至25%(降幅75%),鼓励夜间资源利用 [6]