Meta AI团队进展与Llama 4技术报告发布 - Meta新成立的AI团队已于本月内部交付首批关键模型,公司CTO Andrew Bosworth评价其“非常好” [1] - 公司此前被报道正在开发代号为Avocado的文本AI模型和代号为Mango的图像视频AI模型,计划第一季度发布 [1] - 一篇关于Llama 4系列模型的技术报告《The Llama 4 Herd: Architecture, Training, Evaluation, and Deployment Notes》在arXiv上线,全面回顾了该系列宣称的数据和技术成就 [1] Llama 4技术报告来源与性质 - 报告由Meta机器学习工程师Arthur Hinsvark上传,但未明确标识来自Meta [3] - 报告作者名单包含超过1300名项目参与者,名单长达5页,可大体认为报告来自Llama 4团队 [4] - 报告引言声明其为对公开材料的独立调查,基准数值归因于模型卡,并提示对评估工具等持保留态度 [4] - 报告内容共15页,其中作者名单占5页,参考文献占1页,实际技术内容仅9页 [9] Llama 4系列模型技术规格总结 - 报告总结了已发布的模型变体,包括Scout、Maverick以及预览版Behemoth教师模型 [9] - Llama 4 Scout规格:基础与指令微调检查点,MoE架构,激活参数170亿,总参数1090亿,16个专家,支持文本+图像输入与文本+代码输出,支持12种语言,预训练覆盖约200种语言,知识截止日期2024年8月,训练token数约40万亿,模型支持上下文长度1000万token [9] - Llama 4 Maverick规格:基础与指令微调检查点,提供FP8量化权重,MoE架构,激活参数170亿,总参数4000亿,128个专家,支持文本+图像输入与文本+代码输出,支持相同12种语言,预训练覆盖约200种语言,知识截止日期2024年8月,训练token数约22万亿,模型支持上下文长度100万token [9] 报告揭示的模型能力与宣传差异 - 报告揭示了模型架构能力与实际部署存在显著差距,尤其是上下文长度 [4] - Scout架构设计支持1000万token上下文,但实际托管服务因硬件成本限制,常将可用上下文限制在128K或100万token [4][7] - 报告提及LMArena排行榜争议,指出Meta在榜单上提交的Maverick“实验性聊天”变体与公开发布版本不完全相同,这引发了对其“操纵基准测试”的批评 [11] - 报告明确区分营销话术与技术指标,指出发布公告中如Scout是“同类最佳”等声称属于“面向营销的主张”,应与严谨的基准测试结果分开解读 [11] 报告内容范围与目的 - 报告总结了与再分发、衍生命名相关的许可义务,并回顾了公开描述的安全措施和评估实践 [10] - 报告旨在为研究人员和从业者提供一份关于Llama 4的精确、有来源依据的紧凑技术参考 [10] - 报告技术内容涵盖:超越高级MoE描述的架构特征、训练披露、基准测试结果以及在实际部署环境中观察到的限制 [12]
Meta新模型要来了,但Llama 4的锅谁来接?1300多位作者的联合报告来了