Workflow
Mercury
icon
搜索文档
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升
机器之心· 2025-11-05 12:15
行业技术发展动态 - 扩散大语言模型在2025年得到快速发展,2月Inception Labs推出首个商业级模型Mercury,同期中国人民大学发布首个开源8B模型LLaDA,5月出现Gemini Diffusion,该技术被视为下一代大语言模型基础范式的有力竞争者[2] - 针对扩散大语言模型的解码策略和强化学习算法领域仍处于探索不足的状态[2] 核心技术问题识别 - 掩码扩散大语言模型具备并行解码、灵活生成顺序和潜在少步推理等优势,但其完全扩散式解码策略存在性能大幅逊色于分块解码的痛点[7] - 完全扩散式解码存在三个关键问题:解码早期token置信度变化由平缓到陡升;<EOS> token置信度始终显著高于其他token;导致模型在早期解码时易陷入<EOS>陷阱而提前终止生成[9] - 将自回归模型的强化学习算法直接迁移至MDLM会遇到rollout轨迹和优化轨迹不一致的问题,因MDLM采用双向注意力机制,与自回归模型的因果性掩码不同[11] 方法论创新 - 研究团队提出<EOS>早期拒绝机制,在解码早期主动抑制<EOS>置信度避免过早终止,后期恢复置信度确保句子正常结束,显著提升全扩散式解码性能[15] - 基于token置信度变化观察,设计幂次递增解码步长调度器,将推理步数从O(L)降至O(logL),大幅加速推理过程[15] - 提出一致性轨迹分组策略优化,通过存储每一步解码的中间状态来优化相邻状态间的转变,缓解轨迹不一致带来的优化误差[16] - 将<EOS>早期拒绝机制、递增步长调度器和CJ-GRPO算法结合,削减训练时中间状态存储开销,实现训练和解码的时间/空间复杂度从O(L)降至O(logL)[16] 实验性能表现 - 在数学推理任务GSM8K上,CJ-GRPO + Semi-AR方法在128生成长度、64步设置下达到77.48%性能,在256长度、128步时提升至84.29%[18] - 在规划任务Sudoku上,CJ-GRPO + EOSER方法在128生成长度、32步设置下达到85.25%性能,显著优于基线方法[18] - 在Countdown任务上,CJ-GRPO + EOSER + ASS方法在仅使用log(L)步数情况下,256生成长度时达到59.38%性能[19] - 实验显示规划任务适合并行推理,数学问题更适合顺序推理,装配并行解码的MDLM在规划类任务中表现更佳[23][25] 技术应用前景 - 该方法实现了用更少步数、更快地完成复杂推理任务,推动扩散语言模型的全扩散式解码、少步数解码和强化学习算法发展[21] - 在仅使用log(L)步数情况下,EOSER + ASS性能仍优于分块解码和全扩散式解码策略,真正实现“又快又好”的推理效果[24] - 未来可探索混合推理模式,结合扩散与自回归优势,适应多样化任务需求[26]
扩散语言模型写代码!速度比自回归快10倍
量子位· 2025-07-10 11:19
核心观点 - Inception Labs推出基于扩散技术的商业级大语言模型Mercury,突破传统自回归模型限制,实现高质量代码生成且速度更快[1][2][8] - Mercury采用"从噪声到结构化输出"的扩散生成方式,能一次性预测所有方向token,生成速度比传统工具快10倍[2][8][9] - 模型保留Transformer架构,兼容现有大模型优化技术,在H100 GPU上实现1109 tokens/秒吞吐量[6][7][9][13] - 具备动态纠错能力,通过双向注意力机制和语法树嵌入减少代码错误,支持函数级参数自动校正[4][20][21][22] 技术架构 - **扩散生成流程**:训练阶段正向加噪,推理阶段反向去噪,每次迭代并行修改多个token[11][14] - **并行化文本生成**:单次前向传播预测多token,H100 GPU上Mercury Coder Mini/Small分别达1109/737 tokens/秒[13][9] - **动态去噪调度**:自适应调整去噪步数,平衡精度与效率[17] - **混合精度量化**:内存占用减少30%,通过残差补偿维持输出质量[18] 性能表现 - **基准测试**:在Copilot Arena将响应时间压缩至其他工具1/4,硬件资源占用减少60%[15] - **速度对比**:Mercury Coder Mini延迟0.25秒排名第一,显著低于DeepSeek V2.5(2.07秒)和Claude 3.5 Sonnet(1.46秒)[16] - **多语言支持**:Mercury Coder Small在CPP/Java/TS等语言平均准确率76.2,优于多数开源模型[23] 行业影响 - **CI/CD瓶颈**:模型生成速度远超测试环节,需解决计算资源投入与预算限制的矛盾[24][26][28] - **团队背景**:创始团队包括扩散模型共同发明人及Meta/OpenAI/NVIDIA前成员,具备顶尖学术与工业界经验[29][30][34]
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 12:16
模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM),能够联合处理视觉和文本信息,继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM,LaViDa将文本生成视为在离散token上的扩散过程,通过前向过程将文本token序列退化为掩码token序列,再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势:可通过调整扩散步骤数量灵活控制速度与质量平衡,能够建模双向上下文,更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成,通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M,将输入图像调整为多个视图并独立编码,产生3645个嵌入,通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构,注意力掩码为非因果式,使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程:预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐,微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型:使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason,在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM,支持长度可变的文本填空,在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中,LaViDa-L在MMMU上取得43.3分,优于所有同类模型[22] - 在科学任务中,LaViDa在ScienceQA上取得81.4和80.2分,在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型,主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡:NFE=75%和50%时速度比自回归基线更快且质量更好,NFE=25%时速度明显更快但性能略逊[35]