Workflow
DeepSeek
icon
搜索文档
Deepseek-V3/R1利润率545%怎么算的?
小熊跑的快· 2025-03-02 14:45
理论利润率测算 - 在24小时统计时段内,DeepSeek V3/R1输入token总数为608B,其中342B tokens(56.3%)命中KVCache硬盘缓存,输出token总数为168B,平均输出速率为20~22tps [1] - 若所有tokens按DeepSeek R1定价计算,单日理论收入达562,027美元,成本利润率高达545%,日均成本为87,072美元(GPU租赁成本2美元/小时) [1] - 理论测算基于H800单卡吞吐量:prefill任务输入吞吐73.7k tokens/s(含缓存命中),decode任务输出吞吐14.8k tokens/s [1] 实际利润率影响因素 - 实际利润率显著低于理论值,主因包括:DeepSeek-V3定价低于R1、部分服务未货币化(网页/APP免费)、夜间低峰时段自动折扣 [2] - 按API付费率35%、V3调用占比40%测算,公司处于微利状态;若API付费率提升至65%,利润率可达93% [2] - 满负载状态下日均总Tokens调用量达7760亿,需1.15万张H800(利用率45%),年收入预估9.72亿元 [3] 技术优化方案 - 节点专家并行(EP)通过扩大批量大小提升GPU矩阵计算效率,预填充阶段采用EP32+DP32架构,解码阶段采用EP144+DP144架构 [5] - 计算通信重叠采用双批次重叠策略:预填充阶段拆分微批次交替执行,解码阶段使用5阶段流水线隐藏通信成本 [6] - 负载均衡通过Prefill/Decode Load Balancer实现GPU间计算量均衡,EPLB采用冗余专家策略动态分配高负载专家 [7] 硬件与系统创新 - 分布式文件系统3FS实现跨节点内存直传,免除CPU介入,支持高通量低延迟数据传输 [8] - DualPipe双向流水线并行算法实现前向/后向计算-通信完全重叠,FlashMLA解码内核使H800内存带宽达3000GB/s [8] - 推理服务采用FP8格式矩阵乘法,BF16格式核心计算,日均占用226.75个节点(每节点8张H800) [9] 行业影响 - 开源策略降低国内AI应用对GPU的强依赖,打破IB交换机独占格局 [4] - 技术方案为云厂商提供算力冗余管理新思路,缓解波峰波谷需求压力 [3][4]
大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起
晚点LatePost· 2025-03-02 14:10
大模型注意力机制改进 - 近期DeepSeek和Kimi分别推出NSA和MoBA架构,聚焦改进大模型核心机制"注意力机制",旨在提升长文本处理能力[4] - 注意力机制优化需解决两大瓶颈:显存开销随序列长度线性增长、计算复杂度呈平方级增长[16] - 稀疏注意力成为主流改进方向,通过仅保留关键连接提升效率,数学上Softmax机制天然支持稀疏性[16] 技术实现路径 - NSA采用硬件协同设计,在Block级别进行稀疏计算,利用Triton框架优化GPU并行效率,实现11.6倍解码加速[24][31] - MoBA创新性地在预训练阶段引入稀疏性,通过混合分块注意力保留远距离关键信息,效果超越稠密注意力[20][37] - 两种方案均采用动态稀疏机制,结合内容相关性动态选择关注区域,平衡效率与效果[38] 性能验证 - NSA在270亿参数模型训练中,损失曲线与稠密注意力趋同,推理任务表现更优[42][46] - MoBA在Llama-8B模型测试中,GSM8K数学推理得分达0.7278,优于稠密模型的0.7142[49] - 长文本专项测试显示,32K输入下末端1K词元预测损失显著降低[43] 行业应用前景 - 多模态发展将大幅增加输入长度,1小时视频相当于100万token,需开发跨模态注意力模式[55] - 长思维链生成成为RL训练关键,DeepSeek-R1显示输出长度随训练步数持续增长[26][28] - 科研场景被视为AGI重要突破口,需存储数月研究过程数据并支持复杂推理[59][62] 硬件与算法协同 - GPU显存发展滞后算力增长,B200显存仅为A100的1.2倍,迫使算法层压缩存储需求[53] - 系统层优化如FlashAttention使显存占用降低量级,算子级优化成为效率突破关键[20][35] - 未来可能结合RNN固定存储优势与注意力机制,探索存储复杂度新平衡点[53]
传媒行业周报:GPT-4.5发布,DeepSeek“开源周”收官
国盛证券· 2025-03-02 10:55
报告行业投资评级 - 增持(维持) [6] 报告的核心观点 - 本周(2.24 - 2.28)中信一级传媒板块下跌 8.06%,在市场影响下有所回调 [1][10] - 2025 年传媒弹性方向看好 AI 应用及并购重组,AI 应用聚焦新应用映射投资及部分较成熟应用数据跟踪,并购重组重点关注国企方向;稳健方向聚焦出版及游戏 [1] - 《哪吒 2》带动国潮 IP 热度提升,IP 变现产业链值得关注,潮流玩具、影视内容等方向有机会 [1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周传媒板块下跌 8.06%,涨跌幅前三板块为钢铁(2.96%)、建材(1.98%)、房地产(1.86%),后三为计算机( - 8.01%)、传媒( - 8.06%)、通信( - 9.62%) [10] - 传媒板块本周涨幅前五为宝通科技(57.6%)、天舟文化(21.6%)等,跌幅前五为光线传媒( - 14.5%)、浙文互联( - 14.9%)等 [13] - 教育&人服板块本周涨幅前五为高途集团(31.5%)、同道猎聘(16.8%)等,跌幅前五为佳发教育( - 12.7%)、国新文化( - 12.8%)等 [14] - 重点港股&中概股上市公司一周走势:泡泡玛特( - 3.6%)、快手( - 13.4%)等 [14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等 [2][18] - AI 关注奥飞娱乐、汤姆猫等 [2][18] - 游戏建议关注神州泰岳、恺英网络等 [2][18] - 国企关注慈文传媒、皖新传媒等 [2][18] - 教育关注学大教育、行动教育等 [2][18] - 港股关注腾讯控股、泡泡玛特等 [2][18] 重点事件回顾 AIGC + 游戏 - 2 月 27 日 OpenAI 发布 GPT - 4.5,计算效率比 GPT - 4 提高 10 倍以上,对人类意图理解更深刻,在协助写作和设计方面表现出色 [3][21] - 2 月 28 日 DeepSeek“开源周”收官,期间开源 Fire - Flyer 文件系统等多样化内容 [4][21] - 2 月 26 日阿里开源视频生成模型 Wan2.1,攻克静态图像文字生成,支持在视频中合理生成文字 [5][21] 子板块数据跟踪 游戏 - 近期热门重点游戏包括《问鼎三国 - 策略国战手游》、《剑灵 2》等 [23] - 部分游戏榜单排名有变化,如腾讯《英雄联盟》排名 15(↓5),《金铲铲之战》排名 5(↑3)等 [24] 院线 - 内地电影市场周总票房(2.24 - 2.28)约 4.31 亿元,票房排名前三为《哪吒之魔童闹海》(3.1 亿)、《唐探 1900》(0.42 亿)、《您的声音》(0.23 亿) [24][26] 影视视频 - 2025 年 2 月 24 日至 27 日全平台剧集收视播放量,《难哄》排名第一,全网热度 84.6;综艺《火星情报局第七季》排名第一,全网热度 72.4 [26][27][28]
速递|DeepSeek 声称其“理论”利润率为 545%
Z Potentials· 2025-03-02 10:37
DeepSeek AI模型盈利潜力 - 公司公布在线服务"成本利润率"高达545% 该数据基于"理论收入"计算 [1] - 若V3和R1模型24小时使用量均按R1定价计费 日收入可达562,027美元 而对应GPU租赁成本仅为87,072美元 [1][2] - 实际收入显著低于理论值 主因包括夜间折扣 V3定价较低 及部分服务未商业化 [2] 商业化现状与挑战 - 当前网络和应用程序访问仍免费 若取消免费政策可能导致使用量大幅下降 [2] - 面临美国贸易限制 无法获取最强大芯片 影响技术发展 [2] - 科技股下跌背景下 行业分析师对人工智能支出持质疑态度 [2] 市场表现与技术突破 - 应用程序曾取代ChatGPT登顶苹果App Store榜首 当前在生产力类排名第6 [3] - 1月发布的新模型在部分基准测试中与OpenAI o1性能相当 但开发成本显著更低 [2] - 通过优化方法实现更高吞吐量和更低延迟 技术细节发布于GitHub [1]
宇树科技下轮估值或突破200亿,40%认购者来自海外;小米、小鹏、蔚来等宣布切入“人形机器人”;苹果智能4月支持中文丨AI周报
创业邦· 2025-03-02 10:25
国内AI行业动态 - 纵目科技创始人唐锐回应"跑路"传闻,表示正在处理国内业务重整和海外蚕丛业务投资人寻求事宜 [4] - 澜码科技因融资问题裁员并寻求被并购,创始人已自筹资金支付部分员工薪资 [5] - 沐曦集成电路否认上市前裁员20%传闻,称人员调整属正常范畴并推进上市进程 [5] 自动驾驶与车企动态 - 特斯拉FSD中国版试驾需求旺盛,部分车主日租金达2888元,马斯克称系统已适应中国交通规则 [6][7] - 理想汽车CEO李想公开挑战特斯拉FSD,称其AD Max V13模型有信心与之对比 [8] - 小米、小鹏、蔚来等18家车企布局人形机器人赛道,何小鹏称当前行业处于L2初阶阶段 [13] 机器人领域进展 - 宇树科技发布功夫机器人Unitree G1,下轮估值或突破200亿元,40%老股认购需求来自海外 [9][11] - 众擎机器人完成全球首例人形机器人前空翻特技,突破直膝步态技术 [11] - 深圳拟发布人形机器人专项政策,通过"揭榜挂帅"支持关键技术攻关 [30] AI大模型与开源生态 - DeepSeek开源并行优化策略并下调API价格,夜间时段降幅最高达75% [14][15] - 阿里Qwen团队推出深度思考模型QwQ,支持完整思维链展示 [23] - 月之暗面开源30亿/160亿参数混合专家模型Moonlight,提升训练效率 [25] 海外AI前沿 - 英伟达Q4营收393亿美元同比增78%,Blackwell芯片首季销售额达数十亿美元 [30] - OpenAI推出GPT4.5研究预览版,优化推理能力并减少幻觉 [32] - Anthropic发布Claude 3.7 Sonnet模型,首创混合架构实现深度推理与实时响应 [36] 投融资概况 - 全球AI领域本周融资总额21.19亿元,国内占比24%(5.08亿元),海外占比76%(16.11亿元) [43][49][51] - 国内融资集中在广东(4起)、北京/浙江(各3起),LiblibAI获数亿元A+轮融资 [46][49] - 海外Genspark完成1亿美元A轮融资,采用多模型处理搜索任务 [51]
DeepSeek周末大事不断!
Wind万得· 2025-03-02 06:20
文章核心观点 - 3月1日DeepSeek传出两则重磅消息,一是首次披露V3/R1推理系统理论成本利润率高达545%,二是潞晨科技宣布暂停DeepSeek API服务,消息揭示其在技术创新与商业模式间的双重挑战 [1] DeepSeek首次披露理论利润率 - 3月1日DeepSeek在知乎开设官方账号并发布技术文章,介绍V3/R1推理系统优化目标是实现更大吞吐量和更低延迟,采用大规模跨节点专家并行(EP)方案提升性能 [3] - DeepSeek通过EP技术增长批量大小、隐藏传输耗时和进行负载均衡优化推理系统性能,解码阶段采用更精细策略实现通信 - 计算重叠 [3] - DeepSeek成本控制突出,V3/R1训练成本仅557.6万美元,不到OpenAI GPT - 4o模型的1/20,推理成本每百万token定价16元,比OpenAI低近70%,理论利润率达545% [4] 潞晨科技暂停DeepSeek API服务 - 3月1日潞晨科技官微宣布一周后停止提供DeepSeek API服务,用户尽快用完余额,未用完全额退款 [6] - 潞晨科技CEO尤洋回应DeepSeek理论成本利润率,争议焦点包括数据参考性问题、MaaS性能与稳定性问题、商业模式可持续性问题 [6] - DeepSeek在AI基础设施依赖英伟达GPU和已有技术,未提出颠覆性算法,技术优势未转化为商业成功 [7]
DeepSeek披露,一天成本利润率为545%
华尔街见闻· 2025-03-01 19:17
成本利润率披露 - 公司首次披露成本利润率关键信息 假定GPU租赁成本为2美元/小时 日总成本为87072美元 若所有tokens按DeepSeek-R1定价计算 理论日收入达562027美元 成本利润率为545% [1][3] - 实际收入低于理论值 因V3定价更低且存在夜间折扣 收费服务仅占部分负载 [4] 资源利用与定价策略 - 最近24小时节点占用峰值278个 平均22675个 定价策略为014美元/百万输入tokens(缓存命中) 055美元/百万输入tokens(缓存未命中) 219美元/百万输出tokens [3] - 采用弹性资源调度 白天全节点部署推理 夜间释放节点用于训练/研究 优化目标为提升吞吐量与降低延迟 [4][5] - 公司强调定价原则为"不贴钱也不赚暴利" 在成本基础上保持适度利润 此前员工透露API服务利润率超50% [5] 行业争议与回应 - 潞晨科技创始人尤洋曾称DeepSeek API业务月亏4亿元 主要因测试速度与实际场景差距 机器利用率波动及不稳定性 [2][5] - 公司通过公开资源利用数据间接回应质疑 证明弹性伸缩可避免资源空置 [5] - 业内人士认为在线推理领域需持续吸引用户并保持技术领先才能盈利 商务付费能力与应用场景同样关键 [6] 开源周技术成果 - 公司结束为期5天的开源周 累计开源5个代码库 包括FlashMLA(Hopper GPU优化解码内核) DeepEP(MoE模型训练推理通信库) DeepGEMM(支持密集与MoE布局的即时编译库) Optimized Parallelism Strategies(大规模训练效率优化)及Fire-Flyer文件系统(3FS)与Smallpond数据处理框架 [7][8][9][10][11] - 开源技术被评价为从"运营驱动"转向"价值驱动" 推动智能未来创新 [12] 用户规模与行业影响 - DeepSeek App累计下载量超11亿次 周活跃用户峰值近9700万 [12] - 开源生态发展被视为中国技术创新的关键力量 公司实践展示开源硬件对技术自由的促进作用 [12]
DeepSeek首次披露:理论成本利润率545%!
证券时报· 2025-03-01 16:38
DeepSeek-V3/R1推理系统概览 - 公司首次披露V3/R1推理系统的理论成本和利润率,在GPU租赁成本为2美元/小时的假设下,日总成本为87072美元,理论日收入为562027美元,成本利润率高达545% [1][4][5] - 优化目标聚焦于提升吞吐量和降低延迟,采用大规模跨节点专家并行(EP)技术,通过增加batch size提高GPU矩阵乘法效率,同时分散专家计算以减少访存需求 [2][3] - 系统面临跨节点通信、负载均衡等挑战,公司通过双批次重叠策略和最优负载均衡方案保证高性能与稳定性 [3] 成本控制与定价策略 - 采用动态节点调度机制,白天高峰时段使用278个节点(每节点含8块H800 GPU),夜间低峰时段缩减至平均226.75个节点以降低运营成本 [4] - 实施错峰定价策略,夜间(00:30-08:30)API调用价格大幅下调:V3输入/输出价格降至标准时段的50%(0.25元/百万tokens输入,4元/百万tokens输出),R1降至25% [6] - 标准时段V3与R1的定价差异显著,R1输入/输出价格均为V3的两倍(1元 vs 0.5元输入,16元 vs 8元输出) [6] 行业竞争与市场定位 - 对比OpenAI最新GPT-4.5模型,其输入价格高达75美元/百万tokens,是DeepSeek-V3标准时段的280倍(按汇率换算),引发用户对高定价的质疑 [10] - 公司通过开源周活动连续7天发布技术组件,构建协同系统以最大化GPU利用率,获得国际社区高度评价,被推测技术能力可能超越公开水平 [7][11] - 加速研发中的DeepSeek-R2模型或将提前发布,重点提升多语言推理和代码生成能力,进一步强化行业竞争力 [11] 技术突破与行业影响 - 大规模跨节点专家并行技术实现批处理规模扩展与延迟降低,但需平衡系统复杂度与性能,成为行业技术创新的典型案例 [2][3] - 动态资源调度与错峰定价形成独特商业模式,在保证服务体验的同时优化成本结构 [4][6] - 开源策略与技术透明度显著提升品牌影响力,推动行业对高效推理系统的重新评估 [7][11]
速递|腾讯声称超过DeepSeek,发布快速思考模型Turbo S继续点燃AI竞赛
Z Potentials· 2025-03-01 11:53
图片来源:腾讯 腾讯在其官方渠道表示,推出快速思考模型Turbo S , 被设计为尽可能快速地思考并且做出响应 , 与 DeepSeek 的深度推理方法有所不同,其部署成本也大 幅下降。 阿里巴巴在腾讯发布的一个月前,其最新的 Qwen AI 模型做了基准测试,以针对 DeepSeek 。周四, 微信运营商分享了数据表明其自身的 Turbo S 在常用 的 AI 测试中与 DeepSeek 的 V3 模型具有竞争力。 百度公司在周五表示将在 3 月 16 日推出其最新的 "Ernie" 平台。而字节跳动公司正在测试一个类似 DeepSeek 的 R1 的新模型。 图片来源: DeepSeek 许多公司和政府机构都在使用 DeepSeek 。其受欢迎程度居高不下 , 以至于由于服务器容量不足 , 一度暂停了某些服务。为了应对需求激增 , 它在非高峰时 段大幅降低了应用程序接口的价格。 上周 , 该公司承诺向公众发布关键代码和数据 , 这是一个不同寻常的举措 , 比以往竞争对手如 OpenAI 所做的更多地分享其核心技术。 通过这一举措 ,DeepSeek 正在更积极地推动 AI 开发的开源方法 , 这已经赢得了 ...
DeepSeek Fuels China's Tech Resurgence: 3 Stocks Worth Watching
ZACKS· 2025-03-01 05:02
文章核心观点 2025年中国科技领域多行业取得显著进展,有望成为全球科技强国,科技巨头战略投资AI和新兴技术,为投资者带来增长机会 [1][5] 行业进展 半导体行业 - 中国半导体行业在先进封装技术上取得战略进展,虽在前沿芯片制造未领先,但在半导体封装领域占全球超25%市场份额,先进封装超50% [3] 机器人行业 - 中国企业在CES 2025展示机器人创新成果,如宇树科技展示的人形和四足机器人灵活性高,G1人形机器人有43个关节电机,可无缝完成动作转换 [4] 电动汽车行业 - 极氪和长城汽车等公司在CES展示前沿车型,禾赛等供应商的汽车级激光雷达价格从2017年的8万美元降至2025年的约200美元 [4] 增强现实行业 - 北京的Xreal展示XReal One Pro眼镜,视野达57度,Rokid展示支持实时多语言翻译的AR眼镜 [5] 公司动态 科技巨头战略布局 - 腾讯、阿里巴巴、百度、京东和拼多多等科技巨头战略投资AI基础设施和新兴技术,强化中国数字生态系统 [1] 初创公司创新成果 - 杭州AI初创公司DeepSeek的R1模型引发全球关注,其以研究为导向、扁平层级的运营模式加速了R2模型发布,且成本效益高的AI架构可降低研发成本 [2] 重点公司技术突破 - 腾讯推出Hunyuan Turbo S模型,响应速度超竞争对手,性能与DeepSeek - V3相当,且成本低,有望在AI领域占据市场份额 [7][8] - 阿里巴巴发布QwQ - Max - Preview模型,挑战行业领先者,承诺开源QwQ - Max和Qwen 2.5 Max,并投资530亿美元发展云和AI基础设施,还计划开发轻量级模型和移动应用 [10][11] - 百度与宁德时代合作开发无人驾驶汽车,计划3月推出升级的Ernie 4.5 AI模型,并于6月30日开源,在自动驾驶和AI领域加强布局 [12][13]