Workflow
FlashMLA
icon
搜索文档
西贝获新一轮融资,新荣记张勇等入股;马斯克与奥特曼互喷;DeepSeek新模型曝光;黄仁勋:AI时代蓝领更吃香;俞敏洪开办“退休俱乐部”
搜狐财经· 2026-01-22 10:27
新能源汽车政策 - 工信部修订准入审查要求 规定新能源汽车及特种作业车底盘企业应建立产品运行安全状态监测平台 对已销售车辆进行监测直至报废 新规自2027年1月1日起施行 [4] 餐饮行业融资与扩张 - 西贝餐饮集团完成A轮融资 注册资本从8990.29万元增至10168.01万元 增幅13.1% 投资方包括新荣记创始人张勇控制的台州新荣泰投资及前阿里合伙人胡晓明主导的杭州舟轩股权投资 [4][5] - 呷哺呷哺集团跨界布局牛排赛道 推出子品牌“呷牛排” 首店将于2月6日在北京开业 计划三年内将门店数量扩充至百店规模 [16] 黄金价格动态 - 现货黄金(伦敦金现)价格盘中突破4800美元/盎司 再创历史新高 国内金饰价格持续上涨 多家品牌金饰克价逼近1500元 [7] - 周生生足金饰品报1495元/克 较前一日涨41元/克 老凤祥报1498元/克 涨42元/克 老庙黄金报1493元/克 涨38元/克 中国黄金足金饰品价格突破1500元至1506元/克 [7] 人工智能行业动态 - 马斯克转帖称ChatGPT已被关联9起死亡事件 其中5起据称为互动导致自杀 OpenAI创始人山姆·奥特曼回应称近十亿用户中部分人心理状态脆弱 公司将持续完善系统 [7] - 奥特曼提及据统计已有超过50人死于自动驾驶功能引发的事故 并批评特斯拉相关技术远未达到安全标准 [8] - DeepSeek官方在GitHub更新代码 提及未公开的“MODEL1”大模型标识符 推测其可能为高效推理模型或针对16K+序列优化的长序列专家 [9] - 阶跃星辰开源10B参数量多模态模型Step3VL10B 称其在多项核心基准测试中达到同规模SOTA水平 部分能力超越10–20倍体量的大模型 [14] - 英伟达CEO黄仁勋在达沃斯表示AI将带动史上最大规模基建建设潮 由于数据中心建设需求 水管工、电工等职业技工将能拿到“六位数薪资” [9] - 苹果计划在2026年下半年将Siri改造为首款聊天机器人 代号“CAMPOS” 将依赖谷歌Gemini模型并考虑在Google云端上运行 [9][10] - OpenAI公告称“星际之门”项目计划到2029年将美国AI基础设施扩展到10吉瓦 已在得克萨斯州等多个州开发站点 并承诺自行承担能源费用 [12] - 智谱因GLM-4.7上线后用户数高速增长导致算力资源紧张 将暂时限量发售GLM Coding Plan 限售后每日可销售量降为当前的20% [13] - 百度文心App将启动改版 新增“多人、多Agent群聊”功能 内部人士表示并非要做一个微信 而是提供平台借助AI能力完成特定任务 [12] 科技公司产品与融资 - 航天驭星完成近6亿元D轮融资 资金将用于卫星互联网地面基础设施关键技术研发、批量化生产及全球化建设 [19] - AI软件创建平台Emergent完成7000万美元B轮融资 由Khosla Ventures和软银愿景基金2号领投 自上线七个月以来累计融资额已达1亿美元 [19] - 英伟达向人工智能推理初创公司Baseten投资1.5亿美元 该公司此轮融资共3亿美元 估值达50亿美元 [19] - VCSEL芯片及解决方案提供商瑞识科技完成数亿元C轮融资 [19] - 新樾生物完成数千万元A+轮战略融资 由老股东晶泰科技追加投资 资金将用于深化“DEL+AI”融合技术平台及加速创新药管线临床开发 [20] - 苹果首款折叠屏手机iPhone Fold模型曝光 采用阔比例+内外双屏设计 有望今年9月发布 [21] - 索尼推出230美元耳夹式耳机 加入开放式音频热潮 [22] 其他公司事件 - 申通快递公告涉及实际控制人陈小英离婚财产分割诉讼 原告要求确认陈小英名下4057万股股份中的2028万股归其所有 按21日收盘价13.78元计算 该部分股份市值约为2.8亿元 [15] - 荣耀高管隔空回应小米续航对比 称电竞手机大容量电池应让手机尽情释放性能 而非当老人机 [16] - 茅台回应马年生肖酒外包装“昴宿”的“昴”字印刷错误为“昂” 承认错误属实并表示可前往自营店更换 [17] - 《愤怒的小鸟》官宣回归中国市场 将由金山世游独家发行并运营 推出两款核心IP作品 该系列全球下载量已突破50亿次 [18] - 福特因发动机缸体加热器存在起火风险 将在美召回逾11.9万辆汽车 [19]
DeepSeek新模型“MODEL1”曝光
第一财经资讯· 2026-01-21 17:05
新模型“MODEL1”的技术线索与进展 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处此前未公开的“MODEL1”大模型标识符 [2] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在代码中被并列提及,行业根据代码上下文认为其很可能代表一个不同于现有架构的新模型 [3] - 根据开发者分析,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [5] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [5] 新模型的技术背景与市场传闻 - 近一个月内,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型,此次项目曝光或许印证了该传闻 [6] - 行业对于“MODEL1”的具体定位有不同看法,有观点认为是V4模型或推理模型R2,也有开发者认为可能是V3系列的终极版 [3] DeepSeek的技术基础与历史产品 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是公司模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化利用GPU硬件 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了基于强化学习的推理模型R1,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] DeepSeek-R1的行业影响与中国AI开源生态 - 海外开源社区Hugging Face发布博客回顾“DeepSeek时刻”一周年,指出中国AI力量在过去一年重塑了全球开源生态 [7] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [9] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [9] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [9]
DeepSeek新模型“MODEL1”曝光
第一财经· 2026-01-21 16:56
新模型“MODEL1”的技术进展与行业推测 - 在DeepSeek-R1发布一周年之际,其开源社区GitHub上更新了一系列FlashMLA代码,项目文件中数十处提到了此前未公开的“MODEL1”大模型标识符 [3] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)被并列提及,根据代码上下文,“MODEL1”很可能代表一个不同于现有架构的新模型 [4] - 行业对新模型的具体身份有不同看法,可能是V4模型、推理模型R2,或是V3系列的终极版 [4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是实现模型低成本、高性能的关键技术之一 [4] - 开发者分析指出,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [4] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [4] 公司近期技术动态与市场传闻 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型 [5] - 近一个月里,公司团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 公司在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了推理模型R1,基于强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] 行业影响与全球开源生态格局 - 海外开源社区Hugging Face发布博客《“DeepSeek时刻”一周年》,回顾了中国AI力量在过去一年如何重塑全球开源生态 [6] - 文章指出,DeepSeek-R1是Hugging Face上获赞最多的模型,其开源降低了推理技术、生产部署与心理三个门槛,并推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [8] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [8] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [8]
DeepSeek新模型真的要来了?“MODEL1”曝光
第一财经资讯· 2026-01-21 15:00
新模型“MODEL1”的发现与推测 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处提及此前未公开的“MODEL1”大模型标识符 [1] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在项目中被并列提及 [2] - 根据代码上下文,行业认为“MODEL1”很可能代表一个不同于现有架构的新模型,具体可能是V4模型、推理模型R2或V3系列的终极版 [2] 新模型的技术特征与进展 - “MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面 [3] - 这些技术差异表明新架构可能在内存优化和计算效率上进行了针对性设计 [3] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [3] DeepSeek的技术发展背景与行业影响 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [4] - 在近一个月里,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立强大综合性能基础,随后在2025年1月发布了在复杂推理任务上表现卓越的推理模型R1 [4] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [7] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [7] - 全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [7]
DeepSeek新模型曝光
财联社· 2026-01-21 14:34
DeepSeek新模型“MODEL1”架构曝光 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,其中发现一个此前未公开的模型架构标识“MODEL1”,在114个总代码文件中被提及31次[4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型推理生成环节,其实现基础MLA是公司模型实现低成本、高性能的关键技术之一[4] - MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2[5] MODEL1的技术特性与市场定位推测 - 推测MODEL1很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景[5] - 推测MODEL1也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务[5] - MODEL1的硬件实现跨越多个GPU架构,在英伟达H100/H200上有64头和128头两个版本,在最新的B200上有专门的Head64内核实现,且SM100的Head128实现仅支持MODEL1,不支持V3.2[5] - 有人猜测公司为适配英伟达新一代GPU,专门优化了MODEL1的架构[5] DeepSeek现有产品线梳理 - 公司已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”[6] - 2024年12月推出的V3是公司的重要里程碑,其高效的MoE架构确立了强大的综合性能基础[6] - 公司在V3基础上快速迭代,发布了强化推理与Agent能力的V3.1,并于2025年12月推出了最新正式版V3.2,同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale[6] - 2025年1月发布的R1通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式[7] 公司未来产品与技术动向 - 科技媒体The Information月初爆料称,公司将在2025年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力[7] - 公司研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接”的新训练方法,以及一种受生物学启发的“AI记忆模块”[7] - 这一举动引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果[7]
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
公司技术路线与产品矩阵 - DeepSeek已形成两条主要技术路线:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家” [2] - 公司于2024年12月推出重要里程碑模型V3,其高效的MoE架构奠定了强大的综合性能基础 [3] - 公司在V3基础上快速迭代,先后发布了强化推理与智能体能力的V3.1,并于2025年12月推出最新正式版V3.2 [3] - 公司同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale [3] - 公司于2025年1月发布R1模型,该模型通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式 [3] 新模型“MODEL1”的发现与推测 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,代码分析发现了一个此前未公开的模型架构标识“MODEL1”,该标识在114个总代码文件中被提及31次 [1] - “MODEL1”是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [2] - 推测“MODEL1”很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景 [2] - 推测“MODEL1”也可能是一个针对16K+序列优化的长序列专家,适合文档理解、代码分析等长上下文任务 [2] 技术创新与硬件适配 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门用于加速大模型的“推理生成”环节 [1] - FlashMLA算法的实现基础MLA(多层注意力机制)是DeepSeek模型实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化利用GPU硬件 [1] - “MODEL1”的硬件实现跨越多个GPU架构:在英伟达H100/H200(SM90架构)上有64头和128头两个配置版本;在最新的B200(SM100架构)上有专门的Head64内核实现 [2] - SM100架构的Head128实现仅支持“MODEL1”,不支持V3.2,推测DeepSeek为适配英伟达新一代GPU专门优化了“MODEL1”的架构 [2] 未来产品发布与技术整合 - 科技媒体The Information爆料称,DeepSeek将在2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,该模型将具备更强的写代码能力 [3] - DeepSeek研究团队近期发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [3] - 此举引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果 [3]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]
中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览
中金点睛· 2025-03-17 07:55
文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周,其Infra工程优化能力国内领先,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,实现大模型开发成本大幅压缩;成本及算力测算显示其毛利率水平国内领先;Infra优化能力推动大模型平权,对推理算力需求有积极影响,AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周:Infra层优化能力行业领先 全栈协同体系 - DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环,提升千亿参数模型训练、推理效率,压缩开发成本 [2][6] 每日成果 - **Day1**:发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,实现MoE模型推理加速,针对变长序列处理等场景优化,核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力,实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**:发布DeepEP,为MoE模型和专家并行设计的专用通信库,支持FP8低精度通信,有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点,实现训练和推理高吞吐、低延迟 [9] - **Day3**:发布DeepGEMM,针对FP8通用矩阵乘法打造,支持密集GEMM和MoE GEMM,采用CUDA核心两级累加机制,核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等,在H800上最高可实现2.7倍加速 [10] - **Day4**:开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法,通过重叠计算与通信阶段提升训练性能;EPLB是专家并行负载均衡器,用冗余专家策略和组限制专家路由解决负载不均衡问题;Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**:开源3FS和Smallpond。3FS是高性能分布式文件系统,利用SSD和RDMA网络,在性能、可用性和多样化工作负载方面有优势;Smallpond是基于DuckDB和3FS的轻量级数据处理框架,具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算:毛利率水平领先 成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本,过去24小时DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点,处理608B输入Token和168B输出Token,总体GPU hours成本8.7万美元;以模型API定价测算收入、GPU hours租赁成本为核心成本项,综合毛利率在71 - 84.5%,处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高,但实际因部分Token不收费,整体毛利率会降低;海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先;其他云厂商为保证稳定性提供冗余算力,集群负载率难达DeepSeek水平,底层优化不足,会损失部分毛利率 [25] 对产业影响 - 推理算力方面,AI infra进步提升算力利用效率,推动行业繁荣,多模态、Manus等Agent应用会激发更大推理算力需求;AI应用方面,模型推理成本降低,商业化更取决于模型能力迭代和合适场景打磨,2C看好互联网大厂产品化进展,2B关注企业服务厂商客户场景磨合,期待2025年出现更多“爆款”AI应用 [26]
DeepSeek再开源,关注AI应用变化
华泰证券· 2025-03-03 21:25
行业投资评级 - 计算机行业评级为增持(维持)[7] 核心观点 - DeepSeek在6天内连续开源Infra层核心代码 涉及MLA 通信-计算 矩阵乘法运算 专家负载 文件存取等模块优化 旨在提高模型和硬件效率[1] - 开源优化使理论成本利润率达545% 考虑V3定价和夜间折扣等因素 付费token占比50%时测算成本利润率有望达108%[1] - 模型层持续优化有望降低应用层成本并提升应用表现 建议关注拥有用户 数据和场景优势的2B和2C应用公司[1] - 海外厂商以大算力探求边界提升 如xAI将GPU集群从10万卡扩至20万卡训练Grok-3 OpenAI发布GPT-4 5 国内则更注重软硬件效率优化[4] - 模型能力未来或成为基础资源 应用公司优势显著[5] 开源内容总结 - Day 1开源FlashMLA 用于减少训推成本 针对可变长度序列优化 H800上内存限制3000 GB/s 计算限制580 TFLOPS 并适配摩尔线程 海光 天数GPU[12] - Day 2开源DeepEP 提高MoE模型通信速度 支持节点内NVLink和节点间RDMA通信 支持FP8低精度运算[12] - Day 3开源DeepGEMM 优化FP8矩阵乘法运算 在大多数矩阵大小中优于专家调优内核[12] - Day 4开源DualPipe 提高通信和计算效率 实现前向和后向计算通信阶段完全重叠 同时开源EPLB平衡专家负载提升算力效率 以及Profiling Data揭示框架配置方法[12] - Day 5开源3FS 揭示高效文件存取方法 利用SSD和RDMA网络提供共享存储[12] - Day 6开源DeepSeek V3/R1推理系统概述 直接揭示推理效率细节 每个H800节点每秒处理73 7k输入或14 8k输出token[12] 性能与成本数据 - DeepSeek官方数据显示 输入token 608B 其中342B token(56 3%)命中缓存 输出token 168B[17] - 使用278个峰值H800节点(每节点8卡) 平均占用226 75个节点 H800租赁成本每小时2美元 日总成本87,072美元[17] - 所有请求按R1定价计费时日总收入562,027美元 成本利润率545%[17] - 考虑V3定价半价 仅API收费 夜间折扣等因素 华泰测算付费token占比50%时收入181,115美元 成本利润率108%[22] 国内外模型对比 - DeepSeek-R1在GPQA(science)达71 5% AIME 24(math)达79 8% MMLU-Pro达75 9%[23] - GPT-4 5在GPQA(science)达71 4% MMLU-Pro达85 1% MMMU(multimodal)达74 4%[23] - o3-mini(high)在GPQA(science)达79 7% AIME 24(math)达87 3%[23] 产业链标的 - 推荐公司:金山办公(目标价351 05元) 同花顺(目标价425 23元) 用友网络(目标价16 12元)[10] - 2C应用包括三六零 合合信息 2B应用包括汉得信息 新致软件 能科科技 数据中台包括星环科技 普元信息[5] 用户数据 - DeepSeek移动端日活最高达4,179万人(2/6) PC端日活最高达1,600万人(2/5)[20] - 移动端日活占ChatGPT比例最高76 26%(2/10) PC端日活占ChatGPT比例最高23 72%(1/30)[20]
电子行业周报:DeepSeek开源周发布五大技术
爱建证券· 2025-03-03 18:52
报告行业投资评级 - 电子行业评级为"强于大市" [1] 核心观点 - DeepSeek开源周发布五大技术,包括FlashMLA、DeepEP、DeepGEMM、Optimized Parallelism Strategies和3FS,显著提升AI模型推理和训练效率 [6][9][16][19][23] - OpenAI发布GPT-4 5,计算效率较GPT-4提升10倍,但API成本高达75美元/百万tokens输入、150美元/百万tokens输出 [34] - 三星与长江存储签署3D NAND混合键合专利许可协议,计划2025年下半年量产堆叠层数达420-430层的V10 NAND [40] - 英伟达2025Q4营收393亿美元,同比增长78%,数据中心业务收入356亿美元,同比增长93% [30][32] - 阿里巴巴宣布未来三年投入3800亿元建设云和AI硬件基础设施 [36] 行业动态与技术进展 DeepSeek开源技术 - FlashMLA在H800平台上实现3000GB/s数据吞吐与580 TFLOPS算力,性能较FlashAttention-2提升近2倍 [6][8] - DeepEP在NVLink环境下实现153GB/s的分发带宽和158GB/s的合并带宽,RDMA环境下稳定在43-46GB/s [11][12] - DeepGEMM计算性能达1358 TFLOPS,内存带宽最高2668 GB/s,较CUTLASS 3 6优化最高提速2 7倍 [16][17] - 3FS在25节点集群GraySort基准测试中实现3 66 TiB/min吞吐量,键值缓存查找峰值吞吐量超40 GiB/s [23][27] 全球产业动态 - 英伟达GeForce RTX 50系列GPU性能较上一代提升最高2倍 [31] - 台积电CoWoS-L先进封装产能被英伟达包下七成,预计全年出货量突破200万颗 [37] - 天科合达与慕德微纳合作开发SiC基AR衍射光波导镜片,单层镜片可实现80°以上全彩视场角 [41] 市场表现 - 本周电子行业涨跌幅-4 9%,排名28/31,半导体材料子行业涨幅+0 4% [2][47] - 费城半导体指数本周跌11 7%,恒生指数涨1 6% [51][52] - SW电子个股涨幅前三:翱捷科技+30 0%、芯原股份+27 4%、卓翼科技+26 4% [48]