Workflow
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

产品发布 - Meta AI团队正式发布MobileLLM-R1高效推理模型系列 包含基础模型和最终模型版本 参数规模包括140M、360M和950M [4][5] - 该系列模型专门针对数学、编程和科学问题进行监督微调训练 并非通用聊天模型 [6] - 公司同时发布完整训练方案和数据源以确保可重复性 支持进一步研究 [8] 性能表现 - 950M参数模型仅使用约2T高质量token进行预训练 总训练token量少于5T 但性能与使用36T token训练的Qwen3 0.6B相当或更佳 [8] - 在MATH基准上准确率比Olmo 1.24B模型高出约五倍 比SmolLM2 1.7B模型高出约两倍 [10] - 在编码基准测试中表现远超Olmo 1.24B和SmolLM2 1.7B 在完全开源模型中创下新最高水平 [10] 技术规格 - 模型采用文本输入输出模态 上下文长度基础版为4k 最终版为32k 词汇表大小128k 共享嵌入 [15] - 140M模型配置为15层、576维、2048隐藏维度 360M模型为15层、1024维、4096隐藏维度 950M模型为22层、1536维、6144隐藏维度 [14] 研发团队 - 项目由三位华人研究科学家领衔 研发时间长达一年 [17][18] - Zechun Liu专注于大模型高效部署与优化 在顶级会议期刊发表20多篇论文 引用量达数千次 [21][22][23] - Ernie Chang专注于自然语言处理和多模态学习 参与开发代理评估方法和移动设备优化研究 [24][26] - Changsheng Zhao专注于模型量化和神经网络架构 参与开发极低比特量化研究和Llama Guard变体 [30][31][33] 行业影响 - 小参数模型训练成本较低 便于尝试最新技术 模型体量下降可覆盖更多端侧设备 实现更大面积落地 [15] - 机器学习社区欢迎通义和Meta等顶尖团队基于小体量模型的探索 [15] - 随着训练成本普遍下降 行业将获得更好的模型 [16]