SmolLM3
搜索文档
HuggingFace发布超200页「实战指南」,从决策到落地「手把手」教你训练大模型
36氪· 2025-11-10 07:58
近期,HuggingFace 发布的超过 200 页的超长技术博客,系统性地分享训练先进 LLM 的端到端经验。 博客的重点是 LLM 开发过程中「混乱的现实」。它坦诚地记录了哪些方法有效、哪些会失败,以及如何应对实际工程中遇到的陷阱。内容基于团队的实 际项目经验,特别是他们近期使用 384 块 H100 GPU 训练 3B 参数模型 SmolLM3 的过程。 博客中提供了深入的技术细节、代码片段和调试技巧,对于有兴趣亲自构建 LLM 的读者来说非常有指导意义。 下面是对博客内容的概述,非常推荐感兴趣的读者阅读原文。 博客地址: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#positional-encodings--long-context 这一部分是在投入技术细节(如何训练)之前,提出了一个关键问题:「你是否真的需要训练这个模型」? 鉴于(如 Qwen、Gemma、Llama 等)世界级开源模型层出不穷,大多数人可能并不需要从头开始训练自己的模型。 Why 文章列举了一些不应该训练模型的错误理由,例如:「我们有闲置算力 ...
HuggingFace发布超200页「实战指南」,从决策到落地「手把手」教你训练大模型
机器之心· 2025-11-09 19:48
文章核心观点 - HuggingFace发布的技术博客系统性分享了训练先进大语言模型的端到端经验,重点揭示了LLM开发过程中的“混乱现实” [1][4] - 博客内容基于团队实际项目经验,特别是使用384块H100 GPU训练30亿参数模型SmolLM3的过程,提供了深入的技术细节和调试技巧 [4][5] - 成功训练LLM的关键在于快速迭代、高质量数据管理和系统性的消融实验,而非仅仅依靠理论推理 [20][21][25] 训练决策框架 - 在投入技术细节前需首先评估是否真的需要从头训练模型,而非盲目跟风 [9][11] - 定制化预训练主要适用于三大领域:研究特定科学问题、生产环境特定需求、战略开源填补生态空白 [15][16] - 训练决策分为规划(将约束映射到模型规格)和验证(通过消融实验测试选择)两个关键阶段 [18] 消融实验方法论 - LLM行为常反直觉,必须通过大量消融实验而非纯粹思考来验证决策 [21] - 消融实验应选择已被验证的成熟架构作为基线,一次只测试一个有潜力的变更,有效则整合为新基线 [22][23] - 可靠的评估任务需具备单调性、低噪声、超随机性能和排名一致性四个标准,完形填空格式在早期实验中优于多项选择 [28][29] - SmolLM3项目中消融和调试消耗的GPU时间超过主训练的一半,达161,280 GPU小时 [31][32] 模型架构设计 - 现代Transformer模型通过组件改进(如GQA、位置编码)解决具体问题,SmolLM3因端侧部署目标坚持使用密集型架构 [36][37] - 分词器选择涉及词汇量大小和算法,SmolLM3最终选择Llama3的128k词汇表,在目标语言和模型大小间取得最佳平衡 [38] - 优化器、学习率和批量大小等超参数需针对特定架构、数据和约束条件优化,直接借用可能非最优 [38] 数据管理策略 - 数据质量的重要性超过模型架构,数据决定了模型学习的内容,而架构决定了学习方式 [41][42] - 现代LLM训练已从静态混合演变为多阶段训练,在训练过程中动态改变数据混合比例 [45] - 模型最终行为深受训练末期数据影响,因此在退火阶段引入稀缺高质量数据以最大化影响力 [46] - 数据混合的消融实验必须在目标模型规模上运行,因为模型容量显著影响吸收不同数据的效果 [46] 长周期训练管理 - LLM训练是长达数周的“马拉松”,需做好飞行前检查,包括基础设施准备、评测系统、Checkpoint与自动恢复机制等 [51][52] - 即使万全准备,规模化训练中仍会遇到吞吐率骤降、损失曲线噪声化等问题,需及时应对 [53] - SmolLM3采用多阶段训练策略,在训练过程中计划性引入高质量数据集并扩展上下文长度,根据性能监控动态调整 [53] 后训练阶段规划 - 后训练前需明确三大问题:是否真的需要后训练、是否拥有高质量领域特定数据、能否衡量成功标准 [57] - 后训练主要步骤包括监督微调、偏好优化、强化学习、数据筛选整理和评估体系 [58][64] - 监督微调是后训练的起点,因其算力要求低、稳定性高且能提供良好基线 [61][65] 基础设施关键作用 - 基础设施是模型训练的“工业级烤箱”,SmolLM3训练使用384块H100 GPU持续近一个月,处理11万亿token [63][66] - 持续追踪GPU健康状态是保持训练稳定性的关键,需使用专业工具进行全面诊断 [68][72] - GPU需求决策核心在于训练时间、成本与扩展效率的权衡,SmolLM3实际部署384张H100符合公式估算结果 [69][70]
硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
机器之心· 2025-08-07 17:42
大语言模型架构演进 - 自2019年GPT-2至2024-2025年DeepSeek-V3/LLaMA 4,主流大语言模型架构保持高度一致性,核心改进集中在位置编码、注意力机制和激活函数等细节优化[1] - 位置编码从绝对位置编码发展为旋转位置编码(RoPE),注意力机制从多头注意力(MHA)过渡到分组查询注意力(GQA),激活函数从GELU替换为SwiGLU[1] - 过去七年大语言模型更多是框架内精雕细琢,而非颠覆性创新[2] DeepSeek V3/R1关键技术 - 采用多头潜在注意力机制(MLA),通过将key/value张量压缩至低维潜在空间节省KV缓存内存,相比传统MHA内存占用更低[12][18][21] - 引入专家混合(MoE)架构,每个模块含256个专家但仅激活9个(1共享+8路由选择),总参数量达6710亿但推理计算量可控[23][27][30] - MLA技术最早由DeepSeek V2提出,并非V3首创[22] OLMo 2架构特点 - 采用传统MHA而非GQA或MLA,核心创新在于归一化层设计:使用RMSNorm且置于注意力/前馈模块后(Post-Norm变体)[35][38][39] - 在注意力模块内部引入QK-Norm,对Query/Key进行额外归一化,与Post-Norm结合显著提升训练稳定性[46][47] - 整体架构接近Llama 3,主要差异在于注意力机制和归一化策略[48][52] Gemma 3创新设计 - 采用滑动窗口注意力机制,将全局注意力转为局部注意力,大幅降低KV缓存内存需求[54][56][59] - 在GQA模块同时使用Pre-Norm和Post-Norm,结合两种归一化策略优势,形成独特双重归一化结构[62][64][67] - 滑动窗口注意力可与GQA协同使用,实现计算效率与模型性能平衡[60] Mistral Small 3.1特性 - 24B参数规模下性能超越Gemma 3 27B,归因于定制分词器、更小KV缓存和更少层数[73][75] - 放弃早期滑动窗口注意力设计,改用标准GQA机制[76] Llama 4架构对比 - 采用MoE架构但设计不同于DeepSeek-V3:总参数4000亿(比DeepSeek少68%),每token仅激活2个专家[80][82][84] - 使用GQA而非MLA,MoE层与密集层交替排列(非连续部署),专家隐藏维度达8192[84] Qwen3系列差异化 - 同时提供Dense和MoE版本:0.6B致密模型适合轻量部署,235B MoE模型取消共享专家机制[88][91][94] - MoE架构与DeepSeek-V3高度相似,但专家数量增至8个且移除共享专家[94][95] SmolLM3技术亮点 - 30亿参数规模表现优异,采用无位置嵌入(NoPE)机制,完全移除显式位置编码[101][104][109] - 通过因果注意力掩码隐式学习位置信息,在序列长度泛化方面优于传统位置编码方案[108][109] Kimi K2突破性设计 - 1万亿参数规模为当前最大开源LLM,首次在生产级模型应用Muon优化器替代AdamW[112] - 基于DeepSeek-V3架构扩展,MoE模块专家数更多但MLA注意力头更少[112][116]
昆仑万维发布并开源Skywork-R1V 3.0版本;浙江大学发布高精准基因组设计AI模型丨AIGC日报
创业邦· 2025-07-10 08:00
昆仑万维Skywork-R1V 3.0版本发布 - 昆仑万维发布并开源Skywork-R1V 3.0版本 在MMMU评测中取得76.0的开源模型最高成绩 超越Claude-3.7-Sonnet(75.0)和GPT-4.5(74.4)等闭源模型 逼近人类初级专家水平(76.2) [1] Hugging Face开源模型与机器人产品 - Hugging Face开源小参数模型SmolLM3 拥有128k上下文窗口 支持6种语言 支持深度思考和非思考双推理模式 [1] - Hugging Face推出桌面机器人Reachy Mini 分无线版(449美元)和Lite版(299美元) 内置Raspberry 5微型计算机或需外接计算设备 [1] - Reachy Mini为开源DIY套件 体积与毛绒玩具相当 内置两块"眼睛"屏幕与天线结构 可通过Python编程操作 接入Hugging Face Hub平台 可使用超过170万个AI模型和40多万个数据集 [2] 浙江大学基因组AI模型 - 浙江大学开发"女娲CE"AI模型 能以超过90%准确率预测基因组调控区域突变带来的表型变化 并设计相应治疗位点 成果发表于《细胞》期刊 [1] 行业资讯服务 - 提供AIGC产业日报订阅服务 涵盖人形机器人、商业航天、AGI等热门赛道行业图谱和报告 [4]
腾讯研究院AI速递 20250710
腾讯研究院· 2025-07-09 22:49
一、AI视频生成技术升级 - 谷歌Veo 3升级支持仅用一张图片生成音频和视频,角色在多镜头下保持高度一致性[1] - 新功能通过Flow平台的"Frames to Video"选项实现,加入丰富运镜功能[1] - 用户实测显示人物表情自然、表演到位,适用于广告、动画等多领域[1] - Vidu Q1多参考生视频功能可上传最多7张参考图像,实现角色一致性强、多元素同框和零分镜视频生成[4] - 清晰度升级至1080P,支持主体库存储角色素材,单条视频成本不到9毛钱[5] 二、开源大模型进展 - Hugging Face开源3B参数模型SmolLM3,性能超越Llama-3.2-3B和Qwen2.5-3B,支持128K上下文窗口及6种语言[2] - 模型采用双模式系统,用户可在深度思考和非思考模式间灵活切换[2] - 昆仑万维开源Skywork-R1V 3.0多模态模型,高考数学得142分,MMMU评测达76分,超越部分闭源模型[3] - 模型通过强化学习策略GRPO和关键熵驱动机制,仅用1.2万条监督样本和1.3万条强化学习样本实现高性能[3] 三、端侧与多模态模型 - vivo发布端侧多模态模型BlueLM-2.5-3B,支持GUI界面理解,在20余项评测中表现优异[6] - 模型支持长短思考模式自由切换,引入思考预算控制机制[6] - 采用精巧结构(ViT+Adapter+LLM)和四阶段预训练策略,缓解多模态模型文本能力遗忘问题[6] 四、AI系统突破 - X-Masters系统在"人类最后的考试"(HLE)上首次突破30分,达到32.1分,超越OpenAI和谷歌[7] - 系统基于DeepSeek-R1模型构建了工具增强推理智能体X-Master,能在内部推理和外部工具使用间流畅切换[7] - 采用分散-堆叠式多智能体工作流,通过求解器、批评者、重写器和选择器多角色协作[7] 五、行业并购与市场格局 - 智元机器人以21亿元收购科创板上市公司上纬新材控制权,预计收购63.62%-66.99%股份[8] - 2025年上半年Gemini系列模型占据大模型API市场近一半份额,谷歌以43.1%位居第一[9] - DeepSeek V3自发布以来用户留存率极高,位列使用量前五[9] - 细分领域呈现差异化竞争格局:Claude-Sonnet-4在编程领域领先(44.5%),GPT-4o在营销领域领先(32.5%)[9] 六、AI应用趋势 - 全球已有18亿AI用户,但付费率仅3%,学生使用率高达85%,家长群体成为AI重度用户[10] - AI主要应用于邮件撰写(19%)、研究兴趣主题(18%)和管理待办事项(18%)等日常场景[10] - 未来18-24个月AI将迎来六大趋势:垂直领域工具崛起、完整流程自动化、语音AI爆发等[10]
AI日报丨五大投行集体唱多美股!“科技七巨头”扛起盈利大旗
美股研究社· 2025-07-09 19:25
AI技术发展 - Hugging Face开源顶级小参数模型SmolLM3,仅30亿参数但性能超越Llama-3.2-3B和Qwen2.5-3B,支持6种语言和128k上下文窗口,提供深度思考与非思考双推理模式 [3] - OpenAI CEO Altman表示不担心Meta Platforms挖走AI人才,并透露特朗普政府关注AI基础设施 [5] - Meta Platforms收购全球最大眼镜制造商EssilorLuxottica SA约3%股份,价值30亿欧元(35亿美元),计划未来持股比例增至5% [5][6] 科技巨头动态 - 美国科技股七巨头指数微跌0.07%,特斯拉反弹1.32%市值回升,英伟达涨1.12%,Meta和苹果涨0.32%,微软跌0.22%,谷歌A跌1.37%,亚马逊跌1.84% [4] - AMD涨2.24%,礼来制药涨0.62%,伯克希尔哈撒韦B类股跌0.12%,台积电ADR跌0.57% [5] - 谷歌人工智能支出聚焦技术基础设施,高管强调早期阶段投资不足风险高于过度投资 [9] 公司战略与人事变动 - 苹果任命供应链策略师Sabih Khan为新任首席运营官,接替Jeff Williams,Khan曾主导供应链架构与先进制造技术 [10][11] - Jeff Williams将继续负责设计团队与健康计划,苹果近期高管调整还包括零售运营副总裁与Siri负责人更替 [12] - AI Agent平台Manus回应裁员传闻,称基于经营效率对部分业务团队调整,专注核心业务发展 [6] 市场与财报展望 - 高盛将标普500指数年终目标从6100点上调至6600点,预示5.9%上涨空间,摩根大通等投行此前已上调预期 [6] - 财报季临近,科技七巨头预计贡献标普500指数成分股近半利润增长,整体盈利同比增长4.5% [7] - 美元走弱(年内跌10%)利好科技巨头海外收入(占比约60%),能源股与汽车行业或受油价与关税冲击 [7]