Workflow
模型压缩
icon
搜索文档
华鑫证券:AMD发布MI350系列GPU性能升级 继续看好海外算力链
贝塔投资智库· 2025-06-20 11:35
AMD GPU产品更新 - AMD推出MI350X和MI355X两款GPU,算力较前代MI300X提升4倍,推理速度提高35倍 [1][3] - MI350系列性能可与英伟达B200竞争,内存容量为B200的1.6倍,训练及推理速度相当或更优,每1美元投入可处理的tokens数量比B200多40% [3] - MI350X采用风冷设计,MI355X采用液冷设计,均基于第四代Instinct架构,配备288GB HBM3E内存及8TB/秒带宽,功耗分别为1000W和1400W [3] AMD未来产品规划 - AMD预告将于2026年推出MI400系列GPU,与OpenAI联合研发,采用下一代CDNA架构,速度较MI300系列快10倍 [3][4] - MI400系列FP4运行速度达40PFLOPs,配备432GB HBM4内存及19.6TB/s内存带宽,搭配2nm Venice CPU和Vulcano网卡 [4] - Helios AI机架最多可连接72个GPU,扩展带宽达260TB/s,Venice CPU搭载256个Zen6核心,计算性能较Turin CPU提升70% [4] AI芯片设计进展 - 中国科学院推出"启蒙"芯片全自动设计系统,可实现处理器芯片软硬件全自动设计,达到或部分超越人类专家水平 [5] - 系统基于大模型等AI技术,未来将通过不同人工智能路径交叉探索,持续提升设计能力并拓展应用边界 [5] AI模型压缩技术 - Multiverse Computing完成2.17亿美元B轮融资,其CompactifAI技术可将大语言模型压缩高达95%且不影响性能 [6][7] - 压缩后模型运行速度比原始模型快4-12倍,推理成本降低50%-80%,已应用于Meta Llama、DeepSeek等模型 [6][7] - 该技术通过量子启发式算法和张量网络实现,可用于边缘设备,已获得HPE等大企业客户认可 [7] 行业投资建议 - 看好海外算力链,甲骨文预计2026财年云基础设施营收增长超70%,资本支出增至250亿美元 [7] - 建议关注嘉和美康、科大讯飞、寒武纪、鼎通科技、亿道信息、迈信林、泓淋电力、唯科科技等AI相关企业 [2][8]
计算机行业周报:AMD发布MI350系列GPU性能升级,中国科学院发布「启蒙」芯片设计系统-20250619
华鑫证券· 2025-06-19 14:35
报告行业投资评级 - 推荐(维持)[2] 报告的核心观点 - 继续看好海外算力链,甲骨文2026财年云基础设施营收预计增长超70%,资本支出将增至250亿美元,总云收入增长加速,RPO将增长超100% [10][11][52] - 中长期建议关注嘉和美康、科大讯飞、寒武纪等公司 [11][53] 各目录总结 算力动态 - 数据跟踪:本周算力租赁价格略有波动,A800 - 80G恒源云价格环比上周增14.29% [19][22] - 产业动态:6月13日AMD推出MI350X和MI355X两款GPU,算力较前代提升4倍,推理速度提高35倍,性能可与英伟达B200竞争,本月初已批量出货;预告2026年推出与OpenAI联合研发的MI400系列 [20][24][25] AI应用动态 - 周流量跟踪:2025.6.7 - 2025.6.13期间,访问量前三位为ChatGPT、Bing和Canva,访问量环比增速第一为Gemini(11.26%);平均停留时长环比增速第一为Gemini(2.82%) [30][32] - 产业动态:中国科学院推出处理器芯片和相关基础软件全自动设计系统「启蒙」,已基本完成第一步自动设计,后续将推进相关工作以实现系统自演进 [31][35] AI融资动向 - Multiverse完成2.17亿美元B轮融资,其CompactifAI技术可将大语言模型压缩高达95%,运行速度快4 - 12倍,推理成本降低50% - 80%,已上线AWS AI市场,获大企业客户认可 [40][41] 行情复盘 - 上周(6.9 - 6.13日),AI算力指数/AI应用指数/万得全A/中证红利日涨幅最大值分别为1.30%/1.43%/0.76%/0.31%,日跌幅最大值分别为 - 2.49%/-2.29%/-1.10%/-1.01%;AI算力指数内天孚通信涨幅最大,青云科技 - U跌幅最大;AI应用指数内青木科技涨幅最大,每日互动跌幅最大 [44] 投资建议 - 继续看好海外算力链,甲骨文业绩超预期,2026财年云业务多项指标预计大幅增长 [10][11][52] - 中长期建议关注嘉和美康、科大讯飞、寒武纪等多家公司 [11][53]
联想申请数据处理方法、模型压缩方法及装置专利,公开一种数据处理方法、模型压缩方法及装置
金融界· 2025-05-31 08:32
本文源自:金融界 作者:情报员 专利摘要显示,本申请公开了一种数据处理方法、模型压缩方法及装置,数据处理方法包括:获得针对 目标任务的输入数据;输入数据是图像数据、文本数据、语音数据和视频数据中的至少一种;响应目标 任务是第一类型任务,基于表征目标模型的第一参数集合处理目标任务以获得第一输出结果;响应目标 任务是第二类型任务,基于表征目标模型的第二参数集合处理目标任务以获得第二输出结果;第一类型 任务与第二类型任务满足相似性条件,第一参数集合由第一基础参数部分和第一私有参数部分表征,第 二参数集合由第二基础参数部分和第二私有参数部分表征,第一基础参数部分与第二基础参数部分相 同,第一私有参数部分与第二私有参数数据部分包括相同部分参数。 天眼查资料显示,联想(北京)有限公司,成立于1992年,位于北京市,是一家以从事计算机、通信和 其他电子设备制造业为主的企业。企业注册资本565000万港元。通过天眼查大数据分析,联想(北京) 有限公司共对外投资了102家企业,参与招投标项目5000次,财产线索方面有商标信息1730条,专利信 息5000条,此外企业还拥有行政许可237个。 金融界2025年5月31日消息,国家 ...
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 09:07
模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM,在CVPR 2025获满分评价,显存占用仅为前SOTA的1/300且速度提升20倍,仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量,将数据集蒸馏转化为minmax优化问题,在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势,通过高质量数据合成降低训练成本,内部验证节省成本/挑选成本>1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失,多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching(Toca)方法,首次在图像/视频生成中实现无需训练即2倍加速,解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测,在DiT等模型实现5倍加速,八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层,ICCV2019论文被引1100+,推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进:从强模型教弱模型→自蒸馏→弱模型教强模型,第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求,需平衡结构效率与知识保留,数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新,DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点,目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著,非计算机背景人员可参与研究,仅需动机和基础编程能力 [55]
速递|Pruna AI开源模型压缩"工具箱",已完成种子轮融资650万美元
Z Potentials· 2025-03-21 11:22
Pruna AI公司概况 - 欧洲初创公司专注于AI模型压缩算法研究 近期完成650万美元种子轮融资 投资方包括EQT Ventures、Daphni等机构 [2] - 公司开发了标准化AI模型优化框架 整合缓存、蒸馏等多种效率方法 并实现压缩模型的保存/加载标准化流程 [2] - 框架可评估压缩后模型的质量损失与性能提升 类比Hugging Face对transformers的标准化处理方式 [3] 技术方案与行业应用 - 支持多种AI模型类型(LLM/扩散模型/语音识别/CV) 当前重点聚焦图像视频生成领域 客户包括Scenario/PhotoRoom等企业 [4] - 独创压缩代理功能:用户设定速度与准确率阈值(如精度损失≤2%) 系统自动寻找最优压缩组合方案 [5] - 对比行业现状:大公司通常自建压缩技术 开源社区多为单一方法 Pruna的整合方案填补市场空白 [4] 商业化进展 - 采用云服务式计费模式 专业版按小时收费 类比AWS GPU租赁商业模式 [5] - 实证案例:将Llama模型体积缩小8倍且精度损失可控 显著降低客户推理成本 [5] - 企业版提供高级优化代理等增值服务 开源基础框架以扩大生态影响力 [4][5] 行业趋势 - 模型压缩已成行业刚需 OpenAI通过蒸馏技术开发GPT-4 Turbo Black Forest Labs推出Flux.1-schnell等优化版本 [4] - 蒸馏技术通过师生模型知识迁移 实现轻量化模型部署 主流厂商均采用类似方案 [4]