Workflow
蒸馏
icon
搜索文档
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-06-01 01:15
低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在,表现为逻辑减弱、错误响应增多等问题,引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持,硬件成本高达六七百万元,部分厂商采用蒸馏版或量化至4比特参数以降低成本,导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿,FP8精度需8卡A100一体机运行,但量化至4比特后性能显著降低,用户质疑服务真实性[4] - 行业测算显示,满血版DeepSeek-R1服务每月机器成本4.5亿元,按现行收费标准亏损4亿元,采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略,MaaS模式普遍亏损,厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化(如16位转8位)、剪枝和知识蒸馏等技术降低计算复杂度与内存占用,但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型,免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求,但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型,但实际服务体验存在显著差异,反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零,部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下,厂商需持续探索非精度换性能的替代方案以维持运营[5]
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 12:00
核心观点 - RM-R1框架将奖励建模重新定义为推理任务,提出推理奖励模型(ReasRMs),通过生成结构化评估标准和推理过程提升模型可解释性和性能[1][5] - 实验验证推理能力是奖励模型关键要素,两阶段训练范式(推理蒸馏+强化学习)展现出高效性,链式评估准则(CoR)机制带来深度可解释性与卓越性能[33][34][35] - RM-R1在多个基准测试中超越更大规模的开源和闭源模型,性能提升高达8.7%,证明推理能力比模型规模更重要[25][26] 技术架构 - 引入链式评估准则(CoR)机制,将任务动态分类为推理型或对话型,分别采用内部专家解决方案或定制化评估准则进行多维度判断[9][10][11][12] - 推理型任务要求模型先自行生成解决方案作为基准,对话型任务则生成带权重的评估准则和理由,实现类似人类的复杂偏好判断[11][12] - CoR机制通过预定义逻辑序列、任务特定评估和透明推理痕迹,实现深度元推理能力[13] 训练方法 - 采用两阶段训练流程:推理蒸馏阶段从高质量推理链提取知识,强化学习阶段用可验证奖励信号优化推理能力[17][18][19] - 消融研究表明推理蒸馏是关键因素,单独的强化学习无法弥补性能差距,CoR提示工程显著优化推理过程[30] - 仅需8.7K蒸馏示例即可达到与800K示例训练模型相当的性能,展现卓越数据效率[31] 性能表现 - RM-R1-DeepSeek-Distilled-Qwen-32B在数学和代码任务中准确率分别达91.8%和74.1%,远超此前最佳表现(数学73%,代码63%)[26] - 模型规模与性能呈线性关系,32B版本在多个基准平均表现达81.5%,超越INF-ORM-Llama3.1-70B和GPT-4o等大模型[25][26] - 在RM-Bench推理密集型基准上,14B版本性能达79.6%,32B版本提升至81.5%,显示计算预算增加对推理能力的积极影响[26][29] 行业意义 - 开创基于推理的可解释奖励范式,为大模型对齐研究提供新方向,强调认知能力提升比规模扩张更重要[32][34] - 结构化推理方法使模型能处理复杂场景判断,在安全、数学等专业领域展现突破性进展[8][26] - 小模型高效训练路径为资源有限团队提供实际部署方案,具有显著经济优势[31][35]
5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
量子位· 2025-05-27 09:07
FairyR1团队 投稿 量子位 | 公众号 QbitAI 只用5%的参数,数学和代码能力竟然超越满血DeepSeek? 北京大学杨仝教授团队 近期发布了其在高效大型语言模型研究方向的一项新成果—— FairyR1-32B模型 。 该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。 在模型结构方面,研究团队尝试训练两个领域(数学和代码)的专业模型进行合并,旨在进 一步优化流程和资源消耗。 这两个专业模型在一致的训练参数下(例如相同的学习率和批次大小)独立训练约5个周期 后,利用 AcreeFusion工具 进行了合并。 实验结果 研究探索了在参数量大幅减少的情况下,模型在特定任务上实现与更大模型相当甚至更优性 能的可能性。 以上模型已在Huggingface开源 。 模型地址:https://huggingface.co/PKU-DS-LAB/FairyR1-32B FairyR1-32B模型解析 FairyR1-32B模型是在团队前期TinyR1工作基础上进行的进一步探索,沿用了"分合蒸馏"的 研究思路,提出了多种改进方法,包括 自我合并 、 多教师交叉 ...
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 09:07
模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM,在CVPR 2025获满分评价,显存占用仅为前SOTA的1/300且速度提升20倍,仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量,将数据集蒸馏转化为minmax优化问题,在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势,通过高质量数据合成降低训练成本,内部验证节省成本/挑选成本>1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失,多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching(Toca)方法,首次在图像/视频生成中实现无需训练即2倍加速,解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测,在DiT等模型实现5倍加速,八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层,ICCV2019论文被引1100+,推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进:从强模型教弱模型→自蒸馏→弱模型教强模型,第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求,需平衡结构效率与知识保留,数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新,DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点,目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著,非计算机背景人员可参与研究,仅需动机和基础编程能力 [55]
Meta CEO X 微软 CEO 对话解读:「蒸馏工厂」为何成为开源的魅力之源?
机器之心· 2025-05-23 23:30
AI 正在让文档、应用程序和网站之间的界限消失 - Meta CEO Mark Zuckerberg 和微软 CEO Satya Nadella 在 LlamaCon 2025 闭幕会议上探讨 AI 对技术平台和生产力提升的影响 [1] - Nadella 认为 AI 时代文档、应用和网站界限模糊化 传统计算机系统将人类连续需求割裂为独立功能 不符合人类认知 [2-2] - 微软 90 年代 OLE 技术尝试打破应用障碍 实现复合文档 允许 Word 嵌入 Excel 或 PowerPoint 并保留原功能 [5] - 现代 AI 作为通用转换器 能理解用户意图而非机械执行命令 可提供信息、组织文档甚至生成可执行代码 [6] - AI 推动从面向工具计算到面向意图计算的范式迁移 信息形态由使用场景动态决定 用户体验回归自然思维流程 [6] - Nadella 将 AI 浪潮定位为继客户端服务器、互联网和云计算后的重大技术平台变革 需重构整个技术栈 [7] - 微软内部 20%-30% 代码由 AI 生成 AI 应用扩展至代码补全、聊天功能、智能体工作流和代码审查等领域 [7] - Meta 预计到 2026 年一半开发工作将由 AI 完成 [8] 开源与闭源模型的战略价值 - 微软采取灵活策略 同时支持开源和闭源模型 开放权重模型在企业蒸馏和定制化有优势 闭源模型有特定场景 [9] - Azure 云平台同时支持两类模型 为开发者提供多样化选择 [10] - Meta 通过 Llama 系列开源模型实践 推动社区协作演进 [10] 蒸馏工厂概念及其对 AI 生态系统影响 - 两位 CEO 认为建立支持模型蒸馏的基础设施和工具链是未来关键发展方向 [10] - Nadella 强调多模型应用趋势 标准化协议对实现多智能体多模型协作至关重要 [10] - Zuckerberg 提出蒸馏工厂概念 认为微软在多模型协同基础设施有独特优势 [10] - Nadella 将蒸馏工厂描述为开源最大魅力之一 是开源模型能发挥巨大作用的领域 [11]
美国至5月16日当周EIA蒸馏燃油产量引伸需求数据 477.03万桶/日,前值521.07万桶/日。
快讯· 2025-05-21 22:31
美国EIA蒸馏燃油产量引伸需求数据 - 美国至5月16日当周EIA蒸馏燃油产量引伸需求数据为477.03万桶/日,较前值521.07万桶/日下降44.04万桶/日 [1]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
新浪财经· 2025-05-19 06:46
AI技术发展预测 - 谷歌首席科学家Jeff Dean预测一年内将出现具备"初级工程师"能力的24/7全天候AI系统[1][13] - AI工程师不仅能够编写代码,还具备人类工程师难以比拟的持续性与规模化潜力[4] - 多模态成为重要趋势,AI输入输出可涵盖音频、视频、图像、文本或代码等多种形式[6] AI行业格局 - 构建最先进AI模型需要大量投资,最终市场可能仅保留少数几个主流模型[8] - 知识蒸馏技术可将强大模型压缩成轻量级模型,适配更多应用场景[9] - 谷歌通过Pathways系统实现单一Python进程控制上万设备,显著提升开发者体验[19][20] 硬件发展趋势 - 专用机器学习硬件如TPU对AI发展至关重要,谷歌已推出多代TPU产品[16] - 模拟计算在功耗效率方面具有优势,可能成为未来推理硬件发展方向[18] - AI计算需求变化推动硬件创新,需要针对训练和推理不同负载优化设计[22] 技术突破方向 - 稀疏模型和混合专家架构可带来10-100倍的效率提升[24] - 动态扩展模型结构比固定模型更具潜力,可优化资源分配[25] - AI正在改变科研方式,神经网络可加速科学模拟达30万倍[17] 产品应用前景 - AI助手可观察用户操作并协助完成任务,如浏览器标签管理[11] - 教育领域可能成为AI杀手级应用场景,可自动生成互动教学内容[10] - 物理机器人智能体在未来几年可能完成数十种实际工作任务[7]
美国至5月9日当周EIA蒸馏燃油产量引伸需求数据 521.07万桶/日,前值492.51万桶/日。
快讯· 2025-05-14 22:33
EIA蒸馏燃油产量引伸需求数据 - 美国至5月9日当周EIA蒸馏燃油产量引伸需求数据为521.07万桶/日 较前值492.51万桶/日增加28.56万桶/日 [1]
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
量子位· 2025-05-14 12:57
模型架构创新 - Qwen3系列包含6个密集模型(0.6B/1.7B/4B/8B/14B/32B)和2个MoE模型(30B/235B),其中MoE模型的激活参数量分别为3B和22B [5] - 密集模型移除Qwen2的QKV偏置并引入QK-Norm机制提升训练稳定性 [6] - MoE模型取消共享专家设计,采用全批次负载均衡损失促进专家专业化 [8] - 采用双模式架构实现思考/非思考模式自动切换,支持不同复杂度任务处理 [7][10] 训练方法论 - 预训练分三阶段:基础语言能力(4096 token)、推理能力(STEM领域数据)、长文本处理(32768 token) [15][16][17][18][19][20] - 后训练分四阶段:长思维链冷启动(数学/编程标注数据)、推理强化学习(3995个筛选问题)、思维模式融合(SFT混合数据)、通用强化学习(20+任务场景) [23][24][25][27][28][31][32][34][35] - 采用"大带小"蒸馏策略:Off-policy阶段用235B/32B教师模型生成监督信号,On-policy阶段通过输出分布比对动态优化 [37][40][41][42][43][44][47][48] 核心技术突破 - 引入thinking budget概念,根据问题复杂度动态分配计算资源 [11][12][13] - 通过特殊标记(<think>/</think>)实现模式切换,非思考模式响应速度提升 [14] - MoE模型Qwen3-30B含48层/32Q头/4KV头/128专家(激活8个),Qwen3-235B含94层/64Q头/4KV头 [10] 产品化应用 - Qwen Chat上线深度研究功能,8分半可生成带表格的行业研究报告(如医疗保健数字化趋势分析) [49][50] - 提供技术报告和在线体验平台(Github报告地址及Chat演示链接) [51]
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 17:06
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇, 目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健 为共同第一作者。 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可 产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样 策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。 近日, 蚂蚁和人大 的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP (Video-Language Model with Mixed Precision),实现了对超长 视频的高效处理。这个方法的核心在于其独特的 " 混合精度 " 策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会 重点关注关键场景,而对过渡时空信息只做快速扫描一样。 论文标题:Scaling Vi ...