扩散语言模型写代码！速度比自回归快10倍

核心观点 - Inception Labs推出基于扩散技术的商业级大语言模型Mercury，突破传统自回归模型限制，实现高质量代码生成且速度更快[1][2][8] - Mercury采用"从噪声到结构化输出"的扩散生成方式，能一次性预测所有方向token，生成速度比传统工具快10倍[2][8][9] - 模型保留Transformer架构，兼容现有大模型优化技术，在H100 GPU上实现1109 tokens/秒吞吐量[6][7][9][13] - 具备动态纠错能力，通过双向注意力机制和语法树嵌入减少代码错误，支持函数级参数自动校正[4][20][21][22] 技术架构 - 扩散生成流程：训练阶段正向加噪，推理阶段反向去噪，每次迭代并行修改多个token[11][14] - 并行化文本生成：单次前向传播预测多token，H100 GPU上Mercury Coder Mini/Small分别达1109/737 tokens/秒[13][9] - 动态去噪调度：自适应调整去噪步数，平衡精度与效率[17] - 混合精度量化：内存占用减少30%，通过残差补偿维持输出质量[18] 性能表现 - 基准测试：在Copilot Arena将响应时间压缩至其他工具1/4，硬件资源占用减少60%[15] - 速度对比：Mercury Coder Mini延迟0.25秒排名第一，显著低于DeepSeek V2.5(2.07秒)和Claude 3.5 Sonnet(1.46秒)[16] - 多语言支持：Mercury Coder Small在CPP/Java/TS等语言平均准确率76.2，优于多数开源模型[23] 行业影响 - CI/CD瓶颈：模型生成速度远超测试环节，需解决计算资源投入与预算限制的矛盾[24][26][28] - 团队背景：创始团队包括扩散模型共同发明人及Meta/OpenAI/NVIDIA前成员，具备顶尖学术与工业界经验[29][30][34]