SmolLM3 - 财报，业绩电话会，研报，新闻

SmolLM3

搜索文档

HuggingFace发布超200页「实战指南」，从决策到落地「手把手」教你训练大模型

36氪· 2025-11-10 07:58

文章核心观点 - HuggingFace发布了一份超过200页的技术博客，系统性地分享了训练先进大语言模型的端到端实践经验，重点揭示了LLM开发过程中的“混乱现实”[1][4] - 博客内容基于团队实际项目经验，特别是使用384块H100 GPU训练30亿参数模型SmolLM3的过程，提供了深入的技术细节、代码片段和调试技巧[4] - 文章强调数据质量的重要性远超架构选择，最优秀的团队是那些“痴迷于高质量数据”的团队[19] 训练决策框架 - 在投入技术细节前，提出了关键问题：“你是否真的需要训练这个模型”，鉴于世界级开源模型层出不穷，大多数人可能并不需要从头训练[7] - 定制化预训练通常适用于三个主要领域：研究明确科学问题、生产有无法被满足的特定需求、战略开源填补当前开源生态系统的特定空白[13] - 决策流程为：现有模型不可用→提示词工程无法解决→微调无法解决，才考虑从头开始训练[11] 消融实验方法论 - 任何架构上的改变都伴随着风险，必须遵守“去风险”的纪律：“除非测试过它确实有帮助，否则不要改变任何东西”[17] - 设置消融实验的完整流程包括选择已被验证的成熟架构作为基线，一次只测试一个有潜力的变更[16][17] - 消融实验必须足够快以便快速迭代和足够可靠，有两种主要方法：全尺寸模型少量数据、小型代理模型[22][26] - 以SmolLM3为例，消融和调试所消耗的GPU时间超过了主训练运行的一半，达192 GPU运行15天消耗69,120 GPU小时[23][24] 模型架构设计 - 文章以SmolLM3的30亿参数模型为例，系统性地展示如何从零开始构建模型“蓝图”[25] - 注意力机制方面，GQA在性能上与MHA相当但极大节省了KV缓存，是SmolLM3的最终选择[27] - 长上下文处理采用NoPE混合策略，交替使用RoPE层和NoPE层，在不牺牲短上下文性能的同时为长上下文打下基础[27] - SmolLM3因其“端侧部署”目标而坚持使用密集型架构，对比了密集型、MoE和Hybrid三种架构的优缺点[28] 数据管理策略 - 数据质量的影响远超架构选择，如果数据质量差或混合比例不当，再好的架构也无法挽救[31][32] - 现代LLM训练已从静态混合演变为多阶段训练，在训练过程中动态改变数据混合比例[34] - 确定数据配方依赖于系统的消融实验，必须在目标模型规模上运行，因为模型容量会影响吸收不同数据的效果[34] 训练过程管理 - 训练是一个堪比“马拉松”的长周期过程，需要做好飞行前检查，包括基础设施准备、评测系统准备、Checkpoint与自动恢复机制等[37][38] - 现代LLM预训练通常采用多阶段训练策略，每个阶段使用不同的数据混合比例，并在最后阶段进行上下文长度扩展[39] - 以SmolLM3为例，训练使用了384块H100 GPU持续近一个月，处理了11万亿个token[50] 后训练阶段 - 后训练阶段需要先明确目标：严格执行指令的模型、多才多艺的助手、擅长特定任务的“思考引擎”或多语言对话体[45] - 主要步骤包括监督微调、偏好优化、强化学习、数据筛选与整理、评估体系[48] - 监督微调因其便宜、稳定且是最好基线的特点，成为几乎所有后训练流程的起点[49][51] 基础设施要求 - 基础设施被比喻为“工业级烤箱”，对于成功训练至关重要但常被忽视[50] - GPU需求决策核心在于训练时间、成本与扩展效率的权衡，可用公式估算：所需总FLOPs/(单GPU吞吐量×目标训练时长)[53] - 以SmolLM3为例，根据模型规模、训练token数和目标训练时间计算，需要约375–400张H100 GPU，最终部署了384张[54]

Large Language Model (LLM) Training

Artificial Intelligence

SmolLM3

Large Language Model (LLM) Training

Artificial Intelligence

SmolLM3

HuggingFace发布超200页「实战指南」，从决策到落地「手把手」教你训练大模型

机器之心· 2025-11-09 19:48

文章核心观点 - HuggingFace发布的技术博客系统性分享了训练先进大语言模型的端到端经验，重点揭示了LLM开发过程中的“混乱现实” [1][4] - 博客内容基于团队实际项目经验，特别是使用384块H100 GPU训练30亿参数模型SmolLM3的过程，提供了深入的技术细节和调试技巧 [4][5] - 成功训练LLM的关键在于快速迭代、高质量数据管理和系统性的消融实验，而非仅仅依靠理论推理 [20][21][25] 训练决策框架 - 在投入技术细节前需首先评估是否真的需要从头训练模型，而非盲目跟风 [9][11] - 定制化预训练主要适用于三大领域：研究特定科学问题、生产环境特定需求、战略开源填补生态空白 [15][16] - 训练决策分为规划（将约束映射到模型规格）和验证（通过消融实验测试选择）两个关键阶段 [18] 消融实验方法论 - LLM行为常反直觉，必须通过大量消融实验而非纯粹思考来验证决策 [21] - 消融实验应选择已被验证的成熟架构作为基线，一次只测试一个有潜力的变更，有效则整合为新基线 [22][23] - 可靠的评估任务需具备单调性、低噪声、超随机性能和排名一致性四个标准，完形填空格式在早期实验中优于多项选择 [28][29] - SmolLM3项目中消融和调试消耗的GPU时间超过主训练的一半，达161,280 GPU小时 [31][32] 模型架构设计 - 现代Transformer模型通过组件改进（如GQA、位置编码）解决具体问题，SmolLM3因端侧部署目标坚持使用密集型架构 [36][37] - 分词器选择涉及词汇量大小和算法，SmolLM3最终选择Llama3的128k词汇表，在目标语言和模型大小间取得最佳平衡 [38] - 优化器、学习率和批量大小等超参数需针对特定架构、数据和约束条件优化，直接借用可能非最优 [38] 数据管理策略 - 数据质量的重要性超过模型架构，数据决定了模型学习的内容，而架构决定了学习方式 [41][42] - 现代LLM训练已从静态混合演变为多阶段训练，在训练过程中动态改变数据混合比例 [45] - 模型最终行为深受训练末期数据影响，因此在退火阶段引入稀缺高质量数据以最大化影响力 [46] - 数据混合的消融实验必须在目标模型规模上运行，因为模型容量显著影响吸收不同数据的效果 [46] 长周期训练管理 - LLM训练是长达数周的“马拉松”，需做好飞行前检查，包括基础设施准备、评测系统、Checkpoint与自动恢复机制等 [51][52] - 即使万全准备，规模化训练中仍会遇到吞吐率骤降、损失曲线噪声化等问题，需及时应对 [53] - SmolLM3采用多阶段训练策略，在训练过程中计划性引入高质量数据集并扩展上下文长度，根据性能监控动态调整 [53] 后训练阶段规划 - 后训练前需明确三大问题：是否真的需要后训练、是否拥有高质量领域特定数据、能否衡量成功标准 [57] - 后训练主要步骤包括监督微调、偏好优化、强化学习、数据筛选整理和评估体系 [58][64] - 监督微调是后训练的起点，因其算力要求低、稳定性高且能提供良好基线 [61][65] 基础设施关键作用 - 基础设施是模型训练的“工业级烤箱”，SmolLM3训练使用384块H100 GPU持续近一个月，处理11万亿token [63][66] - 持续追踪GPU健康状态是保持训练稳定性的关键，需使用专业工具进行全面诊断 [68][72] - GPU需求决策核心在于训练时间、成本与扩展效率的权衡，SmolLM3实际部署384张H100符合公式估算结果 [69][70]

Large Language Model (LLM) Training

Artificial Intelligence

SmolLM3

Large Language Model (LLM) Training

Artificial Intelligence

SmolLM3

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

机器之心· 2025-08-07 17:42

大语言模型架构演进 - 自2019年GPT-2至2024-2025年DeepSeek-V3/LLaMA 4，主流大语言模型架构保持高度一致性，核心改进集中在位置编码、注意力机制和激活函数等细节优化[1] - 位置编码从绝对位置编码发展为旋转位置编码（RoPE），注意力机制从多头注意力（MHA）过渡到分组查询注意力（GQA），激活函数从GELU替换为SwiGLU[1] - 过去七年大语言模型更多是框架内精雕细琢，而非颠覆性创新[2] DeepSeek V3/R1关键技术 - 采用多头潜在注意力机制（MLA），通过将key/value张量压缩至低维潜在空间节省KV缓存内存，相比传统MHA内存占用更低[12][18][21] - 引入专家混合（MoE）架构，每个模块含256个专家但仅激活9个（1共享+8路由选择），总参数量达6710亿但推理计算量可控[23][27][30] - MLA技术最早由DeepSeek V2提出，并非V3首创[22] OLMo 2架构特点 - 采用传统MHA而非GQA或MLA，核心创新在于归一化层设计：使用RMSNorm且置于注意力/前馈模块后（Post-Norm变体）[35][38][39] - 在注意力模块内部引入QK-Norm，对Query/Key进行额外归一化，与Post-Norm结合显著提升训练稳定性[46][47] - 整体架构接近Llama 3，主要差异在于注意力机制和归一化策略[48][52] Gemma 3创新设计 - 采用滑动窗口注意力机制，将全局注意力转为局部注意力，大幅降低KV缓存内存需求[54][56][59] - 在GQA模块同时使用Pre-Norm和Post-Norm，结合两种归一化策略优势，形成独特双重归一化结构[62][64][67] - 滑动窗口注意力可与GQA协同使用，实现计算效率与模型性能平衡[60] Mistral Small 3.1特性 - 24B参数规模下性能超越Gemma 3 27B，归因于定制分词器、更小KV缓存和更少层数[73][75] - 放弃早期滑动窗口注意力设计，改用标准GQA机制[76] Llama 4架构对比 - 采用MoE架构但设计不同于DeepSeek-V3：总参数4000亿（比DeepSeek少68%），每token仅激活2个专家[80][82][84] - 使用GQA而非MLA，MoE层与密集层交替排列（非连续部署），专家隐藏维度达8192[84] Qwen3系列差异化 - 同时提供Dense和MoE版本：0.6B致密模型适合轻量部署，235B MoE模型取消共享专家机制[88][91][94] - MoE架构与DeepSeek-V3高度相似，但专家数量增至8个且移除共享专家[94][95] SmolLM3技术亮点 - 30亿参数规模表现优异，采用无位置嵌入（NoPE）机制，完全移除显式位置编码[101][104][109] - 通过因果注意力掩码隐式学习位置信息，在序列长度泛化方面优于传统位置编码方案[108][109] Kimi K2突破性设计 - 1万亿参数规模为当前最大开源LLM，首次在生产级模型应用Muon优化器替代AdamW[112] - 基于DeepSeek-V3架构扩展，MoE模块专家数更多但MLA注意力头更少[112][116]

昆仑万维发布并开源Skywork-R1V 3.0版本；浙江大学发布高精准基因组设计AI模型丨AIGC日报

创业邦· 2025-07-10 08:00

昆仑万维Skywork-R1V 3.0版本发布 - 昆仑万维发布并开源Skywork-R1V 3.0版本在MMMU评测中取得76.0的开源模型最高成绩超越Claude-3.7-Sonnet（75.0）和GPT-4.5（74.4）等闭源模型逼近人类初级专家水平（76.2） [1] Hugging Face开源模型与机器人产品 - Hugging Face开源小参数模型SmolLM3 拥有128k上下文窗口支持6种语言支持深度思考和非思考双推理模式 [1] - Hugging Face推出桌面机器人Reachy Mini 分无线版（449美元）和Lite版（299美元）内置Raspberry 5微型计算机或需外接计算设备 [1] - Reachy Mini为开源DIY套件体积与毛绒玩具相当内置两块"眼睛"屏幕与天线结构可通过Python编程操作接入Hugging Face Hub平台可使用超过170万个AI模型和40多万个数据集 [2] 浙江大学基因组AI模型 - 浙江大学开发"女娲CE"AI模型能以超过90%准确率预测基因组调控区域突变带来的表型变化并设计相应治疗位点成果发表于《细胞》期刊 [1] 行业资讯服务 - 提供AIGC产业日报订阅服务涵盖人形机器人、商业航天、AGI等热门赛道行业图谱和报告 [4]

昆仑万维(SZ:300418)

AIGC

Artificial Intelligence

Artificial Intelligence

腾讯研究院· 2025-07-09 22:49

一、AI视频生成技术升级 - 谷歌Veo 3升级支持仅用一张图片生成音频和视频，角色在多镜头下保持高度一致性[1] - 新功能通过Flow平台的"Frames to Video"选项实现，加入丰富运镜功能[1] - 用户实测显示人物表情自然、表演到位，适用于广告、动画等多领域[1] - Vidu Q1多参考生视频功能可上传最多7张参考图像，实现角色一致性强、多元素同框和零分镜视频生成[4] - 清晰度升级至1080P，支持主体库存储角色素材，单条视频成本不到9毛钱[5] 二、开源大模型进展 - Hugging Face开源3B参数模型SmolLM3，性能超越Llama-3.2-3B和Qwen2.5-3B，支持128K上下文窗口及6种语言[2] - 模型采用双模式系统，用户可在深度思考和非思考模式间灵活切换[2] - 昆仑万维开源Skywork-R1V 3.0多模态模型，高考数学得142分，MMMU评测达76分，超越部分闭源模型[3] - 模型通过强化学习策略GRPO和关键熵驱动机制，仅用1.2万条监督样本和1.3万条强化学习样本实现高性能[3] 三、端侧与多模态模型 - vivo发布端侧多模态模型BlueLM-2.5-3B，支持GUI界面理解，在20余项评测中表现优异[6] - 模型支持长短思考模式自由切换，引入思考预算控制机制[6] - 采用精巧结构(ViT+Adapter+LLM)和四阶段预训练策略，缓解多模态模型文本能力遗忘问题[6] 四、AI系统突破 - X-Masters系统在"人类最后的考试"(HLE)上首次突破30分，达到32.1分，超越OpenAI和谷歌[7] - 系统基于DeepSeek-R1模型构建了工具增强推理智能体X-Master，能在内部推理和外部工具使用间流畅切换[7] - 采用分散-堆叠式多智能体工作流，通过求解器、批评者、重写器和选择器多角色协作[7] 五、行业并购与市场格局 - 智元机器人以21亿元收购科创板上市公司上纬新材控制权，预计收购63.62%-66.99%股份[8] - 2025年上半年Gemini系列模型占据大模型API市场近一半份额，谷歌以43.1%位居第一[9] - DeepSeek V3自发布以来用户留存率极高，位列使用量前五[9] - 细分领域呈现差异化竞争格局：Claude-Sonnet-4在编程领域领先(44.5%)，GPT-4o在营销领域领先(32.5%)[9] 六、AI应用趋势 - 全球已有18亿AI用户，但付费率仅3%，学生使用率高达85%，家长群体成为AI重度用户[10] - AI主要应用于邮件撰写(19%)、研究兴趣主题(18%)和管理待办事项(18%)等日常场景[10] - 未来18-24个月AI将迎来六大趋势：垂直领域工具崛起、完整流程自动化、语音AI爆发等[10]

生成式AI

大模型

Artificial Intelligence

Artificial Intelligence

Veo 3

SmolLM3

Skywork-R1V 3.0

AI日报丨五大投行集体唱多美股！“科技七巨头”扛起盈利大旗

美股研究社· 2025-07-09 19:25

AI技术发展 - Hugging Face开源顶级小参数模型SmolLM3，仅30亿参数但性能超越Llama-3.2-3B和Qwen2.5-3B，支持6种语言和128k上下文窗口，提供深度思考与非思考双推理模式 [3] - OpenAI CEO Altman表示不担心Meta Platforms挖走AI人才，并透露特朗普政府关注AI基础设施 [5] - Meta Platforms收购全球最大眼镜制造商EssilorLuxottica SA约3%股份，价值30亿欧元（35亿美元），计划未来持股比例增至5% [5][6] 科技巨头动态 - 美国科技股七巨头指数微跌0.07%，特斯拉反弹1.32%市值回升，英伟达涨1.12%，Meta和苹果涨0.32%，微软跌0.22%，谷歌A跌1.37%，亚马逊跌1.84% [4] - AMD涨2.24%，礼来制药涨0.62%，伯克希尔哈撒韦B类股跌0.12%，台积电ADR跌0.57% [5] - 谷歌人工智能支出聚焦技术基础设施，高管强调早期阶段投资不足风险高于过度投资 [9] 公司战略与人事变动 - 苹果任命供应链策略师Sabih Khan为新任首席运营官，接替Jeff Williams，Khan曾主导供应链架构与先进制造技术 [10][11] - Jeff Williams将继续负责设计团队与健康计划，苹果近期高管调整还包括零售运营副总裁与Siri负责人更替 [12] - AI Agent平台Manus回应裁员传闻，称基于经营效率对部分业务团队调整，专注核心业务发展 [6] 市场与财报展望 - 高盛将标普500指数年终目标从6100点上调至6600点，预示5.9%上涨空间，摩根大通等投行此前已上调预期 [6] - 财报季临近，科技七巨头预计贡献标普500指数成分股近半利润增长，整体盈利同比增长4.5% [7] - 美元走弱（年内跌10%）利好科技巨头海外收入（占比约60%），能源股与汽车行业或受油价与关税冲击 [7]