Workflow
自回归(AR)生成范式
icon
搜索文档
冲破 AGI 迷雾,蚂蚁看到了一个新路标
雷峰网· 2025-09-16 18:20
大模型发展瓶颈 - 数据压榨已到尽头 AGI实现面临突破难题 [2][4] - 自回归范式存在单向建模缺陷 导致模型无法逆向推理和修正错误 [16][17][18] - 出现人名截断 语义颠倒 医疗诊断左右混淆等基础错误 [13][15] 当前技术迭代方向 - 马斯克提出提纯数据方案 尝试打开AGI大门 [5] - 多模态成为重点研究方向 Open AI发布GPT-4o实现多模态感知 [7][8] - 斯坦福李飞飞提出视觉是智能基石的观点 [8] 扩散模型新范式突破 - 蓝振忠与李崇轩合作推出LLaDA-MoE模型 基于扩散理论架构 [12][50] - 扩散模型具备并行解码 双向建模和迭代修正三大优势 [32][33][34][35] - 模型在20T高质量数据上训练 总参数量7B 激活参数量1.4B [63][66] 技术性能表现 - LLaDA-MoE在MMLU测试中获得67.18分 超越LLaDA1.0的65.50分 [71] - 在数学任务GSM8K测试中获得82.41分 接近Qwen2.5-3B的86.28分 [71] - 代码任务MultiPL-E测试中获得52.53分 显著优于LLaDA1.0的29.08分 [71] 行业发展意义 - 首次验证MoE架构在扩散语言模型上的放大效应 [71] - 为行业提供全新技术路径 打破自回归范式垄断 [54][72] - 蚂蚁集团开源模型权重和推理引擎 推动社区共同发展 [74][77] 未来挑战 - 生成速度需提升 当前扩散模型每秒仅50token 远低于自回归300token [72] - 更大规模扩展仍需突破 包括block diffusion等技术难题 [72] - 需要更多研究人员参与 加速扩散语言模型生态建设 [73][78]