小语言模型 - 财报，业绩电话会，研报，新闻

小语言模型

搜索文档

NeurIPS 2025 | 英伟达发布Nemotron-Flash：以GPU延迟为核心重塑小模型架构

机器之心· 2025-12-01 08:40

文章核心观点 - 小语言模型（SLM）参数虽少但实际部署延迟未必同步下降，关键在于模型设计需以真实GPU延迟为第一原则而非单纯缩小参数[2] - 英伟达研究院通过重构小模型设计原则，构建的Nemotron-Flash模型同时实现了SOTA准确率、低延迟和高吞吐[2] - 小模型的未来发展方向是“更快、更稳、更强”，需围绕延迟优化深宽比、明确算子分工并保持训练稳定性[27] 小模型为何不够快 - 深宽比存在矛盾：模型越深能力越强但对GPU延迟越敏感，等参数下越深延迟越高，等延迟下越宽速度越快[9][14] - Attention成本是吞吐瓶颈：业界对Mamba2、DeltaNet等高效算子的组合缺乏系统方法，未明确各层应使用何种算子[9] - 训练后期易“提前退场”：权重尺度偏移导致有效梯度下降，模型性能受训练过程限制而非参数量限制[10] Nemotron-Flash的核心方法 - 深宽比优化：通过绘制“准确率–延迟”曲线找到深度（负责能力）与宽度（负责速度）交汇的黄金点，使模型既不深得拖速度也不宽得能力不足[14] - 混合算子结构：系统研究各类算子的准确率-延迟权衡，使用遗传算法确定Attention、Mamba2、DeltaNet和FFN在不同层的最优分工与协作模式[16][18] - Weight Normalization技术：在训练每个迭代后对线性层权重施加显式归一化，去除径向分量避免梯度被“巨权重”吃掉，解决训练后期停滞问题[17][20] Nemotron-Flash Model Family性能表现 - Nemotron-Flash-1B相比Qwen3-0.6B准确率提升5.5%，端侧推理延迟快1.9倍，最大吞吐高出45.6倍[24] - Nemotron-Flash-3B相比Qwen2.5-3B与Qwen3-1.7B准确率提升2%至5.5%，端侧推理延迟快1.3至1.7倍，最大吞吐提升6.4至18.7倍[24] - 模型已集成进TensorRT-LLM，单H100 GPU吞吐可达41K tokens/second，具备高并发在线服务、端侧边缘设备及成本敏感企业部署能力[2][25]

环球网资讯· 2025-09-11 10:10

行业趋势变化 - 大型语言模型进展乏善可陈热度不及最新iPhone 17 [1] - 小型语言模型在企业中崛起需求增速预计是大型语言模型的两倍 [1][2] - 企业更青睐行业数据微调的专业模型因大型语言模型存在AI幻觉等问题导致用户疲劳 [2] 技术性能比较 - 小型语言模型参数通常在40亿甚至低于1亿大型语言模型参数达数千亿 [2] - 训练方式改进使小型语言模型缩小与大型语言模型差距例如英伟达9亿参数模型超过元公司40倍参数模型（40倍参数约360亿参数） [2] - 当前小型语言模型比去年大型模型更强大 [2] 应用场景优势 - 小型模型适合企业内部IT系统运行以及智能手机、自动驾驶汽车等对能耗与速度敏感的设备 [1] - 人力资源聊天机器人等特定任务无需大型模型全知全能能力 [1] - 小型模型在AI代理中具优势能以更低成本完成任务并支持多个专业模型组合替代单一大型模型 [3] 成本效益分析 - 小型语言模型成本低、易部署更经济高效 [1] - 重复可标准化任务可用小型模型完成无需调用资源消耗巨大的大型模型 [2] - 小型模型可在更便宜芯片上运行降低硬件成本如万国商业机器公司Docling产品仅用2.5亿参数执行数据转化任务 [2] 市场策略调整 - 苹果等厂商未大举投资云端大型语言模型被视为明智决策 [1] - 大型语言模型仍主导ChatGPT等消费者应用但企业与设备端AI可能更多采用小型语言模型 [3] - OpenAI内部使用不同规模模型根据任务复杂度分配资源 [3]

36氪· 2025-08-05 17:45

小语言模型（SLM）的优势 - SLM已足够强大，能处理AI智能体中大多数重复、专一的任务，且天生更适合智能体系统的架构，灵活且易集成 [3] - 从经济角度看，SLM更省钱、更高效，能大幅降低AI运行成本 [3] - SLM小巧，训练/微调成本低（几小时GPU就行），易适应新需求（如新法规），带来"民主化"，让更多人能开发智能体，减少偏见，促进创新 [5] AI智能体市场的现状与问题 - 2024年AI智能体市场已达52亿美元，预计到2034年飙升至2000亿美元，企业中超过一半已经在用 [5] - 目前大多数AI智能体依赖LLM作为"大脑"，但任务往往重复单一（如"检查邮件""生成报告"），用LLMs过于浪费资源 [5] - 智能体系统任务的特点使得小模型能更好的适配智能体生态，从而更有可能交付出更符合要求的结果 [5] SLM的技术特点与性能 - SLM能装进普通消费电子设备（如手机或笔记本），推理速度快，能实时服务一个用户的智能体请求，10亿参数以下的模型可以算是SLM [9] - 最前沿的小模型如Phi-3和Hymba，在工具使用、常识推理和指令遵循方面，性能足以媲美30B到70B的大模型，但在实际工作流中的计算量却降低了10-30倍 [11] - 英伟达测试发现：MetaGPT 60%的任务可用SLM取代，Open Operator 40%，Cradle（图形界面自动化）70% [11] SLM未被广泛采用的原因 - 路径依赖：大量资金（高达570亿美元）被投入了中心化的大模型基础设施，团队倾向于重复使用付费设置，短期内难以转变 [11] - 行业内对「大即是好」的偏见依然强烈，小型模型的研究一直在追逐用于大型模型的相同广泛基准，这些测试体现不出小模型在智能体任务上的优秀表现 [12] - SLM几乎没有GPT-4那样的热度，小模型也不像大模型那样经历营销热潮，许多构建者从未尝试过更便宜更合理的路线 [13] SLM的未来发展建议 - 收集梳理数据，针对特定任务微调SLM，把任务进行聚类并建立SLM的"技能" [13] - 智能体运行时自然产生的专精数据可用来微调SLM，形成良性循环，使得结果越来越好 [6] - 智能体系统天然异构利于混用模型，主智能体用LLM，子任务用SLM [5] 作者背景 - SHIZHE DIAO：先后就读于北京师范大学、香港科技大学，曾在UIUC做访问学者，字节AI LAB实习，2024年加入英伟达担任研究科学家 [15][17] - Xin Dong：博士毕业于哈佛大学，曾在腾讯、Meta等公司工作和实习，现为英伟达研究科学家 [20][22][24]

2025年AI在多个方面持续取得显著进展和突破

搜狐财经· 2025-06-23 15:19

多模态AI发展 - 多模态AI成为2025年AI领域关键趋势能够处理和整合文本、图像、音频和视频等多种形式输入 [1] - OpenAI的GPT-4可从文本、音频和视觉输入生成文本谷歌Gemini模型展示出色多模态能力微软Designer应用利用多模态AI进行图形设计任务 [1] - 多模态AI在医疗保健领域可结合医疗图像和患者病史进行更准确诊断在客户服务方面提供更直观全面支持在内容创作上能根据单一提示生成多种媒体类型 [1] AI智能体演进 - AI智能体从简单聊天机器人向更智能、具有情境感知能力的助手转变改变客户服务、生产力和用户交互方式 [3] - 智谱AI推出的智能体可替用户点外卖能在无人工干预下完成跨应用程序、多步骤的真实任务 [3] - 2025年智能体将更加普及能处理更复杂任务为供应链经理、软件开发人员、金融分析师等提供支持并有望革新自动驾驶领域 [3] 小语言模型(SLMs)崛起 - 2025年小语言模型(SLMs)快速发展并广泛采用相比大型语言模型(LLMs)具有开发和实施成本低等优势 [3] - 微软Phi和Orca模型、GPT-4 o - mini、Claude 3.5 Haiku、Meta的Llama 2以及谷歌研究的更高效语言模型展示了SLMs潜力 [3] - SLMs使AI能力可应用于边缘设备和智能手机为小型组织和研究人员提供更易获取的AI应用开发途径并加快实时应用的推理时间 [3] AI4S推动科研变革 - 大模型引领的AI4S(AI for Science)成为推动科学研究范式变革的关键力量 [4] - 2025年多模态大模型进一步融入科学研究帮助挖掘多维数据的复杂结构为生物医学、气象、材料发现等基础与应用科学研究开辟新方向 [4] - 2024年诺贝尔物理学奖颁给机器学习先驱化学奖颁给能预测蛋白质结构的AI开发者凸显AI对推动科研的巨大贡献 [4] 具身智能发展 - 2025年被认为是"具身智能元年" 具身智能从本体扩展到具身脑 [4] - 行业格局上近百家具身初创企业可能迎来洗牌技术路线上端到端模型不断迭代小脑大模型的尝试有望取得突破 [4] - 商业变现方面会有更多工业场景应用具身智能部分人形机器人迎来量产如特斯拉的"擎天柱"有望在2025年实现小批量生产并投入使用 [4]

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

机器之心· 2025-06-04 12:41

强化学习对语言模型能力的影响 - 学界长期争论RL是否能真正提升语言模型的推理能力，还是仅优化已有知识的调用效率 [1] - 过去研究多持悲观态度，认为RL收益有限且可能导致模型同质化 [1] - NVIDIA研究指出问题根源在于基础模型训练数据中数学/编程任务过度呈现，以及RL训练步数不足 [1] ProRL框架的核心创新 - 将RL训练步数从传统几百步大幅提升至2000步以上，释放小模型潜力 [3] - 采用多样化可验证奖励任务，涵盖数学/编程/科学问答/逻辑谜题等多领域数据 [5] - 引入GRPO+DAPO算法组合，通过解耦裁剪和动态采样提升训练效率 [7] - 采用KL正则化+周期性策略重置机制，有效打破训练停滞 [8] ProRL的技术突破表现 - 在逻辑谜题任务中实现pass@k 100%的突破性表现 [6] - 创造力指标(Creativity Index)显著提升，模型能生成全新解题路径 [6] - 数学任务性能提升14.7%，代码生成领先同类1.5B模型6.5%，逻辑推理准确率提升54.8% [12] - 在基础模型表现较弱的任务上，RL展现出最强的"推理边界扩展"能力 [13] Nemotron-1.5B模型的性能优势 - 在AIME24/AIME25/AMC Math等数学测试中，1.5B模型性能接近7B大模型 [10] - 在apps/CC/cf等编程任务中表现优于同类1.5B模型 [10] - 在GPOA/IFEval/Reasoning等推理任务中大幅超越7B模型，部分指标提升超过50% [10] 研究结论与行业意义 - 长期稳定的RL训练能真正扩展模型能力边界，不仅是策略优化 [15] - 小模型通过ProRL可在复杂推理任务中超越大模型，不依赖更多数据或更大参数量 [16] - 该方法为开发高推理能力、低部署成本的小语言模型提供了新路径 [17]

ProRL（Prolonged Reinforcement Learning）框架

ProRL（Prolonged Reinforcement Learning）框架

智能体引领下一波AI浪潮联发科“兵分三路”布局

21世纪经济报道· 2025-04-24 10:31

公司战略与产品布局 - 联发科针对智能体AI在手机等终端的新空间采取三路策略涵盖芯片层开发工具及生态建设[1] - 公司发布天玑9400+旗舰5G智能体AI移动芯片采用第二代全大核架构设计集成第八代AI处理器NPU 890[1] - 天玑9400+在智能体AI任务推理速度提升20% 并率先支持DeepSeek-R1推理模型及增强型推理解码技术(SpD+)[1] - 推出一站式可视化智能开发工具天玑开发工具集(Dimensity Development Studio)及天玑AI开发者套件2.0[1] - 天玑AI开发套件2.0支持DeepSeek四大关键技术使token产生速度提升2倍内存带宽占用量节省50%[2] - 联合阿里云通义千问传音面壁智能摩托罗拉 OPPO 荣耀 vivo 微软小米启动"天玑智能体化体验领航计划"[2] 财务表现与业务增长 - 2024年联发科全年营收达新台币5305.86亿元同比增长22.4% 合并毛利率49.6% 同比增长1.8个百分点[2] - 营业利益同比增长42.6% 净利润同比增长38.8% 天玑旗舰芯片业务营收超预期达20亿美元[2] - 受益于AI需求 ASIC业务有望在2026年营收突破10亿美元[2] 行业技术趋势演变 - AI模型发展从"大规模参数为王"转向注重提升效率小语言模型发展速度加快[3] - 手机采用4B小语言模型可实现良好效果 DeepSeek蒸馏模型推理能力适配手机端运行[3] - AI芯片朝异构计算能效优化和多任务融合方向发展训练与推理环节下沉至终端侧[5] - 终端侧算力发展满足本地算力数据隐私能源效率等多方面要求[5] 生态合作与行业挑战 - 当前AI手机体验存在碎片化问题系统AI与第三方AI需打通整合[4] - 芯片厂商联合终端厂商和第三方应用厂商共同打造从系统级AI到智能体助手的整合体验[5] - 未来AI手机竞争焦点包括系统级AI能力端云协同优化开发生态完善与用户场景体验闭环[5] - 芯片厂商角色从硬件提供者转变为生态赋能者需早期深度介入软件工具与生态构建[5]