蒸馏

搜索文档
中金 | AI 进化论(3):DeepSeek本地部署需求盛行,一体机硬件乘风而上
中金点睛· 2025-03-06 07:11
文章核心观点 - DeepSeek开源大模型推动私有化部署新趋势,其R1模型在性能、开源策略、硬件成本和适配优化方面具备优势,有望推动包括DeepSeek一体机在内的本地私有化部署需求快速提升,利好算力硬件需求 [1][7][12] DeepSeek开源大模型特点及影响 - DeepSeek V3版本模型以仅1/10训练成本获得与海外领先模型对标能力,R1模型在少量标注数据下提升推理能力,性能比肩OpenAI o1正式版,且于2025年2月24日启动“开源周”丰富开源生态 [7] - 高质量开源模型推动AI大模型能力边界探索和应用落地,利好算力硬件需求;DS在C端APP下载量呈指数级增长,在B端加速垂直领域渗透,45%央企已完成DS模型部署 [8] - 大模型云端部署带动云端算力需求提升,R1模型有望推动云资源消耗量提升,阿里云收入增速和资本开支增长积极 [10] - DeepSeek部署不止于云端,本地化私有部署保障数据安全,C端“云端协同”优化体验与隐私保护,B端部分行业刚性需求驱动本地化部署 [11] C端:DeepSeek - R1+蒸馏技术,轻量化模型推动AI端侧部署 DeepSeek - R1蒸馏 - 知识蒸馏将671B参数量的“教师模型”决策逻辑和特征表征能力迁移至轻量“学生模型”,生成6个不同版本蒸馏模型 [15] - 蒸馏版模型推理性能超越同规模传统模型,在多个推理基准测试中表现优异,兼具经济性与有效性 [16] 蒸馏模型本地部署 - 蒸馏模型减少对显存、内存和存储需求,适合搭载于资源受限终端设备,不同版本参数蒸馏模型需选择合适终端硬件配置 [19][20] - PC是承载本地模型重要终端,DeepSeek - R1轻量化模型推动AI PC升级,换机动力有提升空间,端侧模型进化与硬件迭代形成飞轮效应 [21] B端:AI私有化部署新趋势,DeepSeek一体机的全栈式解决方案 DeepSeek一体机重构本地私有化AI部署模式 - DeepSeek R1全参数模型对系统显存等提出更高要求,一体机是“开箱即用”智能算力解决方案,重构本地私有化AI部署模式 [24][25][26] - 一体机具备深度优化的高性能硬件、内置多种基座大模型、全栈工具链等优势,可缩短部署周期、降低落地门槛 [26][27] DeepSeek一体机软硬件协同难点 - 主流国产AI训练芯片缺少对FP8精度支持,采用16位精度单元计算会大幅降低效率,显存需求增加 [28] - 为在单台8卡服务器上实现全参数DeepSeek R1模型,厂商需进行定点量化,在优化算力效率与保障模型效果间寻求平衡 [30][32] DeepSeek一体机迎合本地化部署需求,市场空间广阔 - 一体机私有化部署满足企业数据安全及合规需求,降低AI大模型部署门槛,减弱B端用户对云的依赖 [33][34][36] - 预计乐观情景下2025年政府、金融等行业约5%的服务器需求转向DeepSeek一体机,需求达7万台,市场规模有望达540亿元 [38][40] 国产算力产业链全方位适配DeepSeek,服务器及云厂商拥抱一体机趋势 - 国产主流GPU厂商宣布适配DeepSeek,超过160家国产算力产业链企业完成适配,昇腾等国产GPU成为重要底层算力支撑 [40] - 算力硬件厂商、云厂商等推出DeepSeek一体机,看好整机环节头部的一体机供应商 [42]
速递丨全球AI巨头正加急抄DeepSeek作业,蒸馏降本或彻底颠覆美国技术先发优势
Z Finance· 2025-03-03 09:41
图片来源: DeepSeek 在全球人工智能竞赛日益激烈的背景下,OpenAI、微软和Meta等行业巨头正纷纷押注"蒸馏"技术, 以降低AI模型的成本,提高其普及率,使企业和消费者更容易获取先进的AI能力。 这一技术的影响力在中国初创公司DeepSeek利用开源系统(如Meta和阿里巴巴的模型)打造高效AI 模型后迅速扩大。DeepSeek的突破不仅挑战了硅谷在AI领域的领导地位,也引发市场震动,导致华 尔街投资者对美国科技巨头信心下降,使其市值蒸发数十亿美元。 蒸馏技术:让"小模型"承载"大智慧" 蒸馏的核心原理是利用一个大型语言模型("教师模型")生成预测数据,并用这些数据来训练更小、 更高效的"学生模型",从而将大模型的知识快速迁移到小模型上。 尽管蒸馏技术已存在多年,最近的技术突破让行业专家普遍认为,它将成为AI创业公司的"降本增 效"利器,使其能够在不依赖庞大算力的情况下构建高效AI应用。 "蒸馏是一种近乎神奇的技术。"OpenAI平台产品负责人Olivier Godement表示,"它能够利用一个极其 强大的前沿大模型,让其'教授'一个更小、更专注于特定任务的模型,使其拥有极快的执行速度和极 低的 ...
DeepSeek 刷新全球 AI 格局;50 美元模型蒸馏术;美国公司们宣布 8000 亿美元算力投资丨AI 月报
晚点LatePost· 2025-02-10 17:50
DeepSeek 在 1 月 20 日上线 R1 模型后,凭借高性能(比肩 OpenAI o1)、低使用成本(API 价格是 o1 的 1/30)、开源模型权重 等,迅速接管 OpenAI 等公司主导的大模型叙事。 DeepSeek 怎么刷新全球大模型格局 李飞飞在内的团队如何低成本 "蒸馏" 出特定领域追赶 o1 的模型 到去年底,OpenAI 年化收入超 60 亿美元 OpenAI 的星门计划:投 5000 亿美元建算力 26 家获得超过 5000 万美元融资的 AI 公司,中国有 2 家 大模型公司的爬虫遭 "下毒" 抵抗 这之前,因为 OpenAI 展示能力超强的 o3 模型,不少 OpenAI 和硅谷的研究者正在讨论 AGI (通用人工智能)即将到来。R1 发 布后,行业焦点变成 DeepSeek,一些媒体用 "DeepShock" 形容它带来的冲击。 市值大跌的英伟达、台积电,现在已经开始反弹 2025 年 1 月的全球 AI 大事记。 文丨贺乾明 编辑丨程曼祺 2025 年 1 月的 AI 月报,你会看到: 以下是我们第 3 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要进展。 格局丨D ...
假的
猫笔刀· 2025-01-29 22:18
春晚节目分析 - 春晚歌曲节目预制菜含量高 部分歌手采用预录形式 如王菲2024年表演被识别为预录 而薛之谦和onepublic的表演被识别为真唱 [1] - 语言类节目表现普遍低于演员日常水平 如林黛玉扮演者、岳云鹏和沈腾的表演效果与视频号数据(点赞转发10万+)形成反差 [1] - 舞蹈和魔术类节目保持行业顶尖水准 但刘谦2024年魔术被评价为"前半幼稚后半潦草" [1] 影视行业观察 - 《哪吒2》维持系列高质量水准 预计豆瓣评分8-8.5分 与第一部8.4分持平 故事为原创剧本 与封神原著无关 [2] - 申公豹角色塑造成为亮点 结尾埋下第三部伏笔 显示系列化开发策略 [2] - 动画制作水平超越前作 重要斗法场面展现细节与想象力 影片节奏紧凑 [4] - 票房预测达40亿元 有望成为春节档冠军 光线传媒可能受益 [5] - 春节档市场规模达百亿级别 影视类账号存在商业合作倾向 [6] 科技行业动态 - 英伟达股价单日大涨9% 收复周一半数跌幅 [6] - OpenAI指控Deepseek使用其专有模型训练开源模型 涉及数据蒸馏技术 但未提供具体证据 [6] - 数据蒸馏在AI行业普遍存在 被类比为"AI仿制药" 目前缺乏明确版权监管 [6]