Workflow
小语言模型
icon
搜索文档
雷军官宣小米多篇最新研究成果成功入选ICLR 2026国际顶级会议
搜狐财经· 2026-02-03 11:13
人工智能学术研究进展 - 小米公司团队在人工智能领域的多篇最新研究成果成功入选国际顶级会议ICLR 2026,研究方向涵盖多模态推理、强化学习、GUI Agent、端到端自动驾驶以及音频生成等多个前沿领域 [1] 强化学习效率优化框架 - 针对多模态大语言模型强化学习训练中存在的“优势坍缩”和“轨迹沉默”现象导致的效率低下问题,公司提出了名为Shuffle-R1的高效强化学习框架 [3] - Shuffle-R1框架包含两项核心设计:成对轨迹采样以提高梯度信号质量,以及基于优势的批次重排序以增加有价值轨迹的曝光率 [4] - 实验结果表明,Shuffle-R1在增加极少计算开销的前提下,在多个多模态推理基准上稳定超越了多种强化学习基线方法 [4] 移动GUI Agent过程监督框架 - 针对Mobile GUI Agent在真实落地中面临的高质量思考轨迹稀缺和中间推理步骤监督成本高的瓶颈,公司提出了MobileIPL迭代偏好学习框架 [7] - MobileIPL包含Thinking-level DPO和Instruction Evolution三阶段指令演化机制,旨在以高效、可扩展的方式实现对模型思考过程的监督与优化 [8] - 该框架在AITZ、AMEX、AndroidControl等主流GUI-Agent基准测试中取得了SOTA(最先进水平),并在分布外场景中展现出更强的泛化鲁棒性与稳定性 [8] 小语言模型推理能力增强框架 - 为解决小语言模型在复杂推理和检索任务中性能受限的问题,公司提出了名为FutureMind的模块化推理框架,该框架无需额外训练和增加参数 [12] - FutureMind通过自适应知识蒸馏从大型语言模型中提炼高级认知能力,构建了由问题分析、逻辑推理、策略规划与检索指导模块组成的动态推理流水线,并辅以三种不同的检索范式 [12] - 在多跳问答基准测试上,FutureMind超越了如Search-o1等多项强基线模型,在不同模型架构和规模下均在无需额外训练的前提下实现了SOTA水平 [13] 全模态推理能力迁移框架 - 针对全模态大模型“感知强、推理弱”以及通过训练提升推理能力成本高昂的挑战,公司提出了名为ThinkOmni的Training-free(免训练)框架 [16] - ThinkOmni框架旨在将成熟的文本推理能力“零成本迁移”至全模态场景,核心组件包括利用现成的推理大模型进行指导的解码过程以及自适应平衡感知与推理信号的策略 [16][17] - 该框架在六个多模态推理基准上均展现出一致的性能提升 [17] 移动Agent评估基准 - 公司推出了名为SMAN-Bench的跨系统、多维度移动Agent评估基准,以解决现有评测中在线环境不稳定与离线轨迹过于单一的对立难题 [20] - 该基准基于大规模图结构语料Mobile3M构建,首创了基于槽位的指令生成方法,并引入了真实广告噪声与交互式模糊指令,以构建高保真的移动操作模拟环境 [20] - SMAN-Bench为量化评估多模态大模型在复杂长程任务中的规划能力、抗干扰鲁棒性及主动交互智能提供了实验平台 [20] 高效音频生成框架 - 针对现有音频生成方法中GAN收敛缓慢和扩散类方法推理计算开销大的问题,公司提出了名为Flow2GAN的两阶段音频生成框架 [23] 1. 该框架首先利用改进的Flow Matching预训练学习生成能力,随后通过轻量GAN微调实现高效的少步乃至单步推理 [24] 2. 改进包括将目标函数重构为端点估计以避免优化困难,以及引入基于谱能量的损失缩放策略以强化对低能量区域的建模 [24] 3. 此外,设计了一种多分支网络结构在不同时间-频率分辨率下建模,提升了音频建模能力 [24] - 实验结果表明,Flow2GAN能够从Mel频谱或离散音频token中生成高保真音频,在生成质量与计算效率的权衡上优于现有最先进的GAN及Flow Matching方法 [24]
NeurIPS 2025 | 英伟达发布Nemotron-Flash:以GPU延迟为核心重塑小模型架构
机器之心· 2025-12-01 08:40
文章核心观点 - 小语言模型(SLM)参数虽少但实际部署延迟未必同步下降,关键在于模型设计需以真实GPU延迟为第一原则而非单纯缩小参数[2] - 英伟达研究院通过重构小模型设计原则,构建的Nemotron-Flash模型同时实现了SOTA准确率、低延迟和高吞吐[2] - 小模型的未来发展方向是“更快、更稳、更强”,需围绕延迟优化深宽比、明确算子分工并保持训练稳定性[27] 小模型为何不够快 - 深宽比存在矛盾:模型越深能力越强但对GPU延迟越敏感,等参数下越深延迟越高,等延迟下越宽速度越快[9][14] - Attention成本是吞吐瓶颈:业界对Mamba2、DeltaNet等高效算子的组合缺乏系统方法,未明确各层应使用何种算子[9] - 训练后期易“提前退场”:权重尺度偏移导致有效梯度下降,模型性能受训练过程限制而非参数量限制[10] Nemotron-Flash的核心方法 - 深宽比优化:通过绘制“准确率–延迟”曲线找到深度(负责能力)与宽度(负责速度)交汇的黄金点,使模型既不深得拖速度也不宽得能力不足[14] - 混合算子结构:系统研究各类算子的准确率-延迟权衡,使用遗传算法确定Attention、Mamba2、DeltaNet和FFN在不同层的最优分工与协作模式[16][18] - Weight Normalization技术:在训练每个迭代后对线性层权重施加显式归一化,去除径向分量避免梯度被“巨权重”吃掉,解决训练后期停滞问题[17][20] Nemotron-Flash Model Family性能表现 - Nemotron-Flash-1B相比Qwen3-0.6B准确率提升5.5%,端侧推理延迟快1.9倍,最大吞吐高出45.6倍[24] - Nemotron-Flash-3B相比Qwen2.5-3B与Qwen3-1.7B准确率提升2%至5.5%,端侧推理延迟快1.3至1.7倍,最大吞吐提升6.4至18.7倍[24] - 模型已集成进TensorRT-LLM,单H100 GPU吞吐可达41K tokens/second,具备高并发在线服务、端侧边缘设备及成本敏感企业部署能力[2][25]
“小而美”语言模型正崛起
环球网资讯· 2025-09-11 10:10
行业趋势变化 - 大型语言模型进展乏善可陈 热度不及最新iPhone 17 [1] - 小型语言模型在企业中崛起 需求增速预计是大型语言模型的两倍 [1][2] - 企业更青睐行业数据微调的专业模型 因大型语言模型存在AI幻觉等问题导致用户疲劳 [2] 技术性能比较 - 小型语言模型参数通常在40亿甚至低于1亿 大型语言模型参数达数千亿 [2] - 训练方式改进使小型语言模型缩小与大型语言模型差距 例如英伟达9亿参数模型超过元公司40倍参数模型(40倍参数约360亿参数) [2] - 当前小型语言模型比去年大型模型更强大 [2] 应用场景优势 - 小型模型适合企业内部IT系统运行 以及智能手机、自动驾驶汽车等对能耗与速度敏感的设备 [1] - 人力资源聊天机器人等特定任务无需大型模型全知全能能力 [1] - 小型模型在AI代理中具优势 能以更低成本完成任务并支持多个专业模型组合替代单一大型模型 [3] 成本效益分析 - 小型语言模型成本低、易部署更经济高效 [1] - 重复可标准化任务可用小型模型完成 无需调用资源消耗巨大的大型模型 [2] - 小型模型可在更便宜芯片上运行 降低硬件成本 如万国商业机器公司Docling产品仅用2.5亿参数执行数据转化任务 [2] 市场策略调整 - 苹果等厂商未大举投资云端大型语言模型被视为明智决策 [1] - 大型语言模型仍主导ChatGPT等消费者应用 但企业与设备端AI可能更多采用小型语言模型 [3] - OpenAI内部使用不同规模模型 根据任务复杂度分配资源 [3]
英伟达最新研究:小模型才是智能体的未来
36氪· 2025-08-05 17:45
小语言模型(SLM)的优势 - SLM已足够强大,能处理AI智能体中大多数重复、专一的任务,且天生更适合智能体系统的架构,灵活且易集成 [3] - 从经济角度看,SLM更省钱、更高效,能大幅降低AI运行成本 [3] - SLM小巧,训练/微调成本低(几小时GPU就行),易适应新需求(如新法规),带来"民主化",让更多人能开发智能体,减少偏见,促进创新 [5] AI智能体市场的现状与问题 - 2024年AI智能体市场已达52亿美元,预计到2034年飙升至2000亿美元,企业中超过一半已经在用 [5] - 目前大多数AI智能体依赖LLM作为"大脑",但任务往往重复单一(如"检查邮件""生成报告"),用LLMs过于浪费资源 [5] - 智能体系统任务的特点使得小模型能更好的适配智能体生态,从而更有可能交付出更符合要求的结果 [5] SLM的技术特点与性能 - SLM能装进普通消费电子设备(如手机或笔记本),推理速度快,能实时服务一个用户的智能体请求,10亿参数以下的模型可以算是SLM [9] - 最前沿的小模型如Phi-3和Hymba,在工具使用、常识推理和指令遵循方面,性能足以媲美30B到70B的大模型,但在实际工作流中的计算量却降低了10-30倍 [11] - 英伟达测试发现:MetaGPT 60%的任务可用SLM取代,Open Operator 40%,Cradle(图形界面自动化)70% [11] SLM未被广泛采用的原因 - 路径依赖:大量资金(高达570亿美元)被投入了中心化的大模型基础设施,团队倾向于重复使用付费设置,短期内难以转变 [11] - 行业内对「大即是好」的偏见依然强烈,小型模型的研究一直在追逐用于大型模型的相同广泛基准,这些测试体现不出小模型在智能体任务上的优秀表现 [12] - SLM几乎没有GPT-4那样的热度,小模型也不像大模型那样经历营销热潮,许多构建者从未尝试过更便宜更合理的路线 [13] SLM的未来发展建议 - 收集梳理数据,针对特定任务微调SLM,把任务进行聚类并建立SLM的"技能" [13] - 智能体运行时自然产生的专精数据可用来微调SLM,形成良性循环,使得结果越来越好 [6] - 智能体系统天然异构利于混用模型,主智能体用LLM,子任务用SLM [5] 作者背景 - SHIZHE DIAO:先后就读于北京师范大学、香港科技大学,曾在UIUC做访问学者,字节AI LAB实习,2024年加入英伟达担任研究科学家 [15][17] - Xin Dong:博士毕业于哈佛大学,曾在腾讯、Meta等公司工作和实习,现为英伟达研究科学家 [20][22][24]
2025年AI在多个方面持续取得显著进展和突破
搜狐财经· 2025-06-23 15:19
多模态AI发展 - 多模态AI成为2025年AI领域关键趋势 能够处理和整合文本、图像、音频和视频等多种形式输入 [1] - OpenAI的GPT-4可从文本、音频和视觉输入生成文本 谷歌Gemini模型展示出色多模态能力 微软Designer应用利用多模态AI进行图形设计任务 [1] - 多模态AI在医疗保健领域可结合医疗图像和患者病史进行更准确诊断 在客户服务方面提供更直观全面支持 在内容创作上能根据单一提示生成多种媒体类型 [1] AI智能体演进 - AI智能体从简单聊天机器人向更智能、具有情境感知能力的助手转变 改变客户服务、生产力和用户交互方式 [3] - 智谱AI推出的智能体可替用户点外卖 能在无人工干预下完成跨应用程序、多步骤的真实任务 [3] - 2025年智能体将更加普及 能处理更复杂任务 为供应链经理、软件开发人员、金融分析师等提供支持 并有望革新自动驾驶领域 [3] 小语言模型(SLMs)崛起 - 2025年小语言模型(SLMs)快速发展并广泛采用 相比大型语言模型(LLMs)具有开发和实施成本低等优势 [3] - 微软Phi和Orca模型、GPT-4 o - mini、Claude 3.5 Haiku、Meta的Llama 2以及谷歌研究的更高效语言模型展示了SLMs潜力 [3] - SLMs使AI能力可应用于边缘设备和智能手机 为小型组织和研究人员提供更易获取的AI应用开发途径 并加快实时应用的推理时间 [3] AI4S推动科研变革 - 大模型引领的AI4S(AI for Science)成为推动科学研究范式变革的关键力量 [4] - 2025年多模态大模型进一步融入科学研究 帮助挖掘多维数据的复杂结构 为生物医学、气象、材料发现等基础与应用科学研究开辟新方向 [4] - 2024年诺贝尔物理学奖颁给机器学习先驱 化学奖颁给能预测蛋白质结构的AI开发者 凸显AI对推动科研的巨大贡献 [4] 具身智能发展 - 2025年被认为是"具身智能元年" 具身智能从本体扩展到具身脑 [4] - 行业格局上近百家具身初创企业可能迎来洗牌 技术路线上端到端模型不断迭代 小脑大模型的尝试有望取得突破 [4] - 商业变现方面会有更多工业场景应用具身智能 部分人形机器人迎来量产 如特斯拉的"擎天柱"有望在2025年实现小批量生产并投入使用 [4]
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
机器之心· 2025-06-04 12:41
强化学习对语言模型能力的影响 - 学界长期争论RL是否能真正提升语言模型的推理能力,还是仅优化已有知识的调用效率 [1] - 过去研究多持悲观态度,认为RL收益有限且可能导致模型同质化 [1] - NVIDIA研究指出问题根源在于基础模型训练数据中数学/编程任务过度呈现,以及RL训练步数不足 [1] ProRL框架的核心创新 - 将RL训练步数从传统几百步大幅提升至2000步以上,释放小模型潜力 [3] - 采用多样化可验证奖励任务,涵盖数学/编程/科学问答/逻辑谜题等多领域数据 [5] - 引入GRPO+DAPO算法组合,通过解耦裁剪和动态采样提升训练效率 [7] - 采用KL正则化+周期性策略重置机制,有效打破训练停滞 [8] ProRL的技术突破表现 - 在逻辑谜题任务中实现pass@k 100%的突破性表现 [6] - 创造力指标(Creativity Index)显著提升,模型能生成全新解题路径 [6] - 数学任务性能提升14.7%,代码生成领先同类1.5B模型6.5%,逻辑推理准确率提升54.8% [12] - 在基础模型表现较弱的任务上,RL展现出最强的"推理边界扩展"能力 [13] Nemotron-1.5B模型的性能优势 - 在AIME24/AIME25/AMC Math等数学测试中,1.5B模型性能接近7B大模型 [10] - 在apps/CC/cf等编程任务中表现优于同类1.5B模型 [10] - 在GPOA/IFEval/Reasoning等推理任务中大幅超越7B模型,部分指标提升超过50% [10] 研究结论与行业意义 - 长期稳定的RL训练能真正扩展模型能力边界,不仅是策略优化 [15] - 小模型通过ProRL可在复杂推理任务中超越大模型,不依赖更多数据或更大参数量 [16] - 该方法为开发高推理能力、低部署成本的小语言模型提供了新路径 [17]
智能体引领下一波AI浪潮 联发科“兵分三路”布局
21世纪经济报道· 2025-04-24 10:31
公司战略与产品布局 - 联发科针对智能体AI在手机等终端的新空间采取三路策略 涵盖芯片层 开发工具及生态建设[1] - 公司发布天玑9400+旗舰5G智能体AI移动芯片 采用第二代全大核架构设计 集成第八代AI处理器NPU 890[1] - 天玑9400+在智能体AI任务推理速度提升20% 并率先支持DeepSeek-R1推理模型及增强型推理解码技术(SpD+)[1] - 推出一站式可视化智能开发工具天玑开发工具集(Dimensity Development Studio)及天玑AI开发者套件2.0[1] - 天玑AI开发套件2.0支持DeepSeek四大关键技术 使token产生速度提升2倍 内存带宽占用量节省50%[2] - 联合阿里云通义千问 传音 面壁智能 摩托罗拉 OPPO 荣耀 vivo 微软 小米启动"天玑智能体化体验领航计划"[2] 财务表现与业务增长 - 2024年联发科全年营收达新台币5305.86亿元 同比增长22.4% 合并毛利率49.6% 同比增长1.8个百分点[2] - 营业利益同比增长42.6% 净利润同比增长38.8% 天玑旗舰芯片业务营收超预期达20亿美元[2] - 受益于AI需求 ASIC业务有望在2026年营收突破10亿美元[2] 行业技术趋势演变 - AI模型发展从"大规模参数为王"转向注重提升效率 小语言模型发展速度加快[3] - 手机采用4B小语言模型可实现良好效果 DeepSeek蒸馏模型推理能力适配手机端运行[3] - AI芯片朝异构计算 能效优化和多任务融合方向发展 训练与推理环节下沉至终端侧[5] - 终端侧算力发展满足本地算力 数据隐私 能源效率等多方面要求[5] 生态合作与行业挑战 - 当前AI手机体验存在碎片化问题 系统AI与第三方AI需打通整合[4] - 芯片厂商联合终端厂商和第三方应用厂商共同打造从系统级AI到智能体助手的整合体验[5] - 未来AI手机竞争焦点包括系统级AI能力 端云协同优化 开发生态完善与用户场景体验闭环[5] - 芯片厂商角色从硬件提供者转变为生态赋能者 需早期深度介入软件工具与生态构建[5]