Llama 4系列模型发布 - Meta发布首个基于MoE架构的Llama 4系列模型,包括Llama 4 Scout、Llama 4 Maverick和尚未推出的Llama 4 Behemoth [3][4] - 前两款被官方称为"最先进的型号"和"最好的多模态型号",其中Llama 4 Scout有16位专家的170亿激活参数,Llama 4 Maverick有128位专家的170亿激活参数 [4][5] - Llama 4 Behemoth为2万亿参数的教师模型,多个基准测试超过GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro [5][50][52] 模型性能与技术特点 - Llama 4 Maverick在大模型竞技场排名中得分1417,超越DeepSeek-V3成为排名第一的开源模型 [8][9] - 系列模型采用MoE架构,Llama 4 Scout和Maverick分别有16和128个专家模型,总参数分别为17B和400B [15][16][17][58] - 提供超长上下文窗口,Llama 4 Scout达100万token,预训练后长度泛化能力达256K [20][27] - 原生多模态设计支持图像理解,在MMMU、ChartQA等基准测试中超越Gemma 3、Gemini 2.0等竞品 [30][31][43] 训练与技术创新 - 预训练使用FP8精度实现390TFLOPs/GPU效率,训练数据达30万亿token是Llama 3的两倍 [63][64] - 采用MetaP新技术设置超参数,在200种语言上训练,词库总量是Llama 3的10倍 [62][63] - 后训练采用轻量级SFT>在线RL>轻量级DPO的课程策略,通过数据过滤提升推理和编码能力 [68][69][70] - 创新iRoPE架构使用交错注意力层无需位置嵌入,支持"无限"上下文长度目标 [70] 商业化与竞争格局 - Llama 4 Maverick推理成本仅0.495/百万token,价格显著低于GPT-4o等竞品 [49] - 行业竞争加剧,OpenAI计划提前发布o3和o4-mini应对,DeepSeek等中国厂商也在加速创新 [80][81] - 模型已在官网和Hugging Face开放下载,支持12种语言方便全球开发者部署 [13][45]
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯