知识蒸馏

搜索文档
暗蓝评《雅各布之书》|照亮历史,然后治愈世人
新浪财经· 2025-06-23 11:42
文学创作分析 - 陈映真在《加略人犹大的故事》中将犹大改写为革命者形象 犹大认为犹太复国主义成功只会带来新的压迫 因此选择利用耶稣之死实现"地上的理想" [3] - 太宰治《越级申诉》中的犹大通过主动背负神罚来涤清原罪 与陈映真笔下的犹大形成鲜明对比 [4] - 托卡尔丘克《雅各布之书》中的纳赫曼背叛雅各布是为了延续"道路"的荣耀 不同于传统犹大形象 [4] 作品主题解析 - 《雅各布之书》通过多重视角展现雅各布这一复杂人物 但最终读者仍无法确定其真实面目 体现托卡尔丘克"真实是多层次"的创作理念 [5] - 托卡尔丘克认为写作具有"照亮历史"的功能 通过描述事物使其免于灭绝 这种创作观与治愈历史创伤的主题密切相关 [5] - 小说采用"星群写作"手法 悬置核心人物雅各布 通过众多配角的视角拼凑时代全景 形成"反史诗"的叙事效果 [17] 文学技法探讨 - 托卡尔丘克在《玩偶与珍珠》中提出"珍珠"象征人的灵魂本质 这一概念成为理解《雅各布之书》中人物动机的关键 [8][10] - 彦塔作为超越时空的观察者贯穿全书 这种赋予"不可能之物"主体性的技法是托卡尔丘克的标志性创作手法 [11][12] - 小说采用页码倒序排列 致敬希伯来文从右至左的书写传统 体现作者对文化细节的考究 [5] 历史观照 - 托卡尔丘克拒绝传统波兰历史小说的民族主义叙事 直面历史上的宗教冲突和社会压迫 [25] - 通过十八世纪医生卢斌的形象 小说预见性地探讨了公共卫生思想和启蒙理性的萌芽 [19] - 小说结尾连接二战时期的真实事件 将历史创伤与治愈主题完美结合 [23][24] 人物塑造 - 纳赫曼代表古典信徒 通过为信仰操劳实现自我荣耀 其背叛行为具有复杂的动机 [20] - 莫里夫达象征现代信徒 作为"永恒的异乡人"体现现代人的身份困境和自由焦虑 [21][22] - 雅各布的外甥这一启蒙青年形象 其悲剧命运预示了法国大革命后"漫长的十九世纪"的到来 [19]
ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
机器之心· 2025-06-09 12:11AI Processing
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-06-01 01:15
低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在,表现为逻辑减弱、错误响应增多等问题,引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持,硬件成本高达六七百万元,部分厂商采用蒸馏版或量化至4比特参数以降低成本,导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿,FP8精度需8卡A100一体机运行,但量化至4比特后性能显著降低,用户质疑服务真实性[4] - 行业测算显示,满血版DeepSeek-R1服务每月机器成本4.5亿元,按现行收费标准亏损4亿元,采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略,MaaS模式普遍亏损,厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化(如16位转8位)、剪枝和知识蒸馏等技术降低计算复杂度与内存占用,但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型,免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求,但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型,但实际服务体验存在显著差异,反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零,部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下,厂商需持续探索非精度换性能的替代方案以维持运营[5]
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 09:07
模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM,在CVPR 2025获满分评价,显存占用仅为前SOTA的1/300且速度提升20倍,仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量,将数据集蒸馏转化为minmax优化问题,在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势,通过高质量数据合成降低训练成本,内部验证节省成本/挑选成本>1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失,多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching(Toca)方法,首次在图像/视频生成中实现无需训练即2倍加速,解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测,在DiT等模型实现5倍加速,八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层,ICCV2019论文被引1100+,推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进:从强模型教弱模型→自蒸馏→弱模型教强模型,第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求,需平衡结构效率与知识保留,数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新,DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点,目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著,非计算机背景人员可参与研究,仅需动机和基础编程能力 [55]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
新浪财经· 2025-05-19 06:46
编译 | 核子可乐、Tina 最近,谷歌传奇工程师 Jeff Dean 在一次访谈中大胆预测:在一年之内,我们将拥有能够 24/7 全天候运 行、具备"初级工程师"能力的 AI 系统。 Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突破。 他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的诞生,自 2018 年起担任 Google AI 负责人,2023 年在 DeepMind 与 Google Brain 合并后 出任谷歌首席科学家。从参与 BERT 论文、主导 TPU 研发,到推动谷歌基础 AI 架构的演进,Dean 几 乎见证并亲历了谷歌每一个关键的 AI 发展节点。 作为技术界最具影响力的人物之一,Jeff Dean 的这番言论一经发布,迅速在业内引发热议。虽然此前 包括 Sam Altman 在内的不少业内人士也曾表达过类似观点,但 Jeff Dean 的话语分量显然不同。正如有 网友所说:相比那个总在"兜售"某种概念的 Sam Altman, ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]
中金 | AI 进化论(3):DeepSeek本地部署需求盛行,一体机硬件乘风而上
中金点睛· 2025-03-06 07:11
文章核心观点 - DeepSeek开源大模型推动私有化部署新趋势,其R1模型在性能、开源策略、硬件成本和适配优化方面具备优势,有望推动包括DeepSeek一体机在内的本地私有化部署需求快速提升,利好算力硬件需求 [1][7][12] DeepSeek开源大模型特点及影响 - DeepSeek V3版本模型以仅1/10训练成本获得与海外领先模型对标能力,R1模型在少量标注数据下提升推理能力,性能比肩OpenAI o1正式版,且于2025年2月24日启动“开源周”丰富开源生态 [7] - 高质量开源模型推动AI大模型能力边界探索和应用落地,利好算力硬件需求;DS在C端APP下载量呈指数级增长,在B端加速垂直领域渗透,45%央企已完成DS模型部署 [8] - 大模型云端部署带动云端算力需求提升,R1模型有望推动云资源消耗量提升,阿里云收入增速和资本开支增长积极 [10] - DeepSeek部署不止于云端,本地化私有部署保障数据安全,C端“云端协同”优化体验与隐私保护,B端部分行业刚性需求驱动本地化部署 [11] C端:DeepSeek - R1+蒸馏技术,轻量化模型推动AI端侧部署 DeepSeek - R1蒸馏 - 知识蒸馏将671B参数量的“教师模型”决策逻辑和特征表征能力迁移至轻量“学生模型”,生成6个不同版本蒸馏模型 [15] - 蒸馏版模型推理性能超越同规模传统模型,在多个推理基准测试中表现优异,兼具经济性与有效性 [16] 蒸馏模型本地部署 - 蒸馏模型减少对显存、内存和存储需求,适合搭载于资源受限终端设备,不同版本参数蒸馏模型需选择合适终端硬件配置 [19][20] - PC是承载本地模型重要终端,DeepSeek - R1轻量化模型推动AI PC升级,换机动力有提升空间,端侧模型进化与硬件迭代形成飞轮效应 [21] B端:AI私有化部署新趋势,DeepSeek一体机的全栈式解决方案 DeepSeek一体机重构本地私有化AI部署模式 - DeepSeek R1全参数模型对系统显存等提出更高要求,一体机是“开箱即用”智能算力解决方案,重构本地私有化AI部署模式 [24][25][26] - 一体机具备深度优化的高性能硬件、内置多种基座大模型、全栈工具链等优势,可缩短部署周期、降低落地门槛 [26][27] DeepSeek一体机软硬件协同难点 - 主流国产AI训练芯片缺少对FP8精度支持,采用16位精度单元计算会大幅降低效率,显存需求增加 [28] - 为在单台8卡服务器上实现全参数DeepSeek R1模型,厂商需进行定点量化,在优化算力效率与保障模型效果间寻求平衡 [30][32] DeepSeek一体机迎合本地化部署需求,市场空间广阔 - 一体机私有化部署满足企业数据安全及合规需求,降低AI大模型部署门槛,减弱B端用户对云的依赖 [33][34][36] - 预计乐观情景下2025年政府、金融等行业约5%的服务器需求转向DeepSeek一体机,需求达7万台,市场规模有望达540亿元 [38][40] 国产算力产业链全方位适配DeepSeek,服务器及云厂商拥抱一体机趋势 - 国产主流GPU厂商宣布适配DeepSeek,超过160家国产算力产业链企业完成适配,昇腾等国产GPU成为重要底层算力支撑 [40] - 算力硬件厂商、云厂商等推出DeepSeek一体机,看好整机环节头部的一体机供应商 [42]