上海AI Lab发布混合扩散语言模型SDAR：首个突破6600 tgs的开源扩散语言模型

核心技术突破：SDAR范式 - 上海人工智能实验室提出全新范式SDAR，旨在解决大模型推理速度慢、成本高的核心瓶颈[2][3] - SDAR通过“训练-推理解耦”设计，无缝融合自回归模型的高性能与扩散模型的并行推理优势，能以极低成本将任意AR模型改造为并行解码模型[4] - 该方法可理解为先培养强大的AR模型，再用极短时间教会其块状并行生成技巧，在保留原有性能的同时实现推理效率的质的飞跃[12] 性能验证结果 - 在多个基准测试中，SDAR模型与原版AR模型性能持平甚至超越，例如在30B规模下，SDAR-Chat在18个基准中的11个上持平或超越了其AR版本[18] - 在科学推理任务上表现突出：SDAR-30B-A3B-Sci模型在ChemBench和GPQA-diamond基准上得分分别从60.5提升至72.8和从61.2提升至66.7，取得12.3和5.5个百分点的显著优势[6][27] - 通过简单的多轮采样+多数投票，SDAR性能可进一步飞跃，在AIME-2025上提升+19.3%，在LMB-hard上提升+15.7%[28] 效率与成本优势 - SDAR仅需50B token的开源数据进行继续预训练即可达到与AR基线相当的性能，远低于需要580B token从头训练的Dream等工作，实现了高效的“即插即用”式适配[19] - 在工业级推理引擎LMDeploy上的实测显示，SDAR-8B-chat在单张H200上实现了相较于AR版本2.3倍的实际加速，峰值吞吐量高达6599 token/s[23] - 模型越大，并行效率越高：更强的模型预测更自信，能一次性并行生成更多token，实现更高的“有效每步生成Token数”，形成“能力与速度”的良性循环[17][22] 行业影响与潜力 - SDAR不仅是一个“加速器”，更是一个“增强器”，为解决复杂推理任务提供了性能与效率俱佳的新范式[27][29] - 该范式的局部双向注意力机制对于精准理解化学式等结构化知识至关重要，在科学领域展现出巨大潜力[6][28] - 研究全面开源了从1.7B到30B的SDAR模型、推理引擎及迄今最强的开源扩散类推理模型，为行业提供了强大而灵活的新工具[31]