核心观点 - Inception Labs推出基于扩散技术的商业级大语言模型Mercury,突破传统自回归模型限制,实现高质量代码生成且速度更快[1][2][8] - Mercury采用"从噪声到结构化输出"的扩散生成方式,能一次性预测所有方向token,生成速度比传统工具快10倍[2][8][9] - 模型保留Transformer架构,兼容现有大模型优化技术,在H100 GPU上实现1109 tokens/秒吞吐量[6][7][9][13] - 具备动态纠错能力,通过双向注意力机制和语法树嵌入减少代码错误,支持函数级参数自动校正[4][20][21][22] 技术架构 - 扩散生成流程:训练阶段正向加噪,推理阶段反向去噪,每次迭代并行修改多个token[11][14] - 并行化文本生成:单次前向传播预测多token,H100 GPU上Mercury Coder Mini/Small分别达1109/737 tokens/秒[13][9] - 动态去噪调度:自适应调整去噪步数,平衡精度与效率[17] - 混合精度量化:内存占用减少30%,通过残差补偿维持输出质量[18] 性能表现 - 基准测试:在Copilot Arena将响应时间压缩至其他工具1/4,硬件资源占用减少60%[15] - 速度对比:Mercury Coder Mini延迟0.25秒排名第一,显著低于DeepSeek V2.5(2.07秒)和Claude 3.5 Sonnet(1.46秒)[16] - 多语言支持:Mercury Coder Small在CPP/Java/TS等语言平均准确率76.2,优于多数开源模型[23] 行业影响 - CI/CD瓶颈:模型生成速度远超测试环节,需解决计算资源投入与预算限制的矛盾[24][26][28] - 团队背景:创始团队包括扩散模型共同发明人及Meta/OpenAI/NVIDIA前成员,具备顶尖学术与工业界经验[29][30][34]
扩散语言模型写代码!速度比自回归快10倍
量子位·2025-07-10 11:19