Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
36氪· 2025-09-30 07:39
模型发布与技术升级 - DeepSeek发布最新实验性模型DeepSeek-V3.2-Exp,该模型基于DeepSeek-V3.1-Terminus开发 [1][3] - 模型首次引入以DeepSeek品牌命名的关键技术“DeepSeek稀疏注意力”(DSA),这是首个用DeepSeek品牌命名的关键技术 [3][5] - DSA是此前与北大合作ACL 2025最佳论文中原生稀疏注意力(NSA)的改进版本 [3] 技术创新与效率提升 - DSA实现了细粒度稀疏注意力机制,通过“闪电索引器”高效判断哪些历史Token最重要,仅对少量关键Token(如2048个)进行精细计算 [5][8] - 新技术使核心注意力计算复杂度从O(L²)大幅降低至O(Lk),其中k为远小于L的固定值,在处理长文本时带来巨大效率提升 [8] - 训练过程包含“密集预热”初始化闪电索引器、“稀疏训练”适应新稀疏模式,以及沿用专家蒸馏和混合强化学习的后训练流程 [10] 性能表现评估 - 在严格对齐的训练设置下,DeepSeek-V3.2-Exp与V3.1-Terminus相比未出现实质性性能下降 [12][14] - 具体基准测试显示:MMLU-Pro保持85.0分,GPQA-Diamond从80.7略降至79.9,Codeforces-Div1从2046提升至2121,AIME 2025从88.4提升至89.3 [15] - 实际部署推理测试中端到端加速效果和成本节约非常显著,实现“性能不降、成本骤减”的特性 [14][18] 商业应用与定价策略 - 得益于新模型服务成本大幅降低,官方API价格同步下调50%以上 [1][19] - 新价格政策即刻生效,当前API模型版本为DeepSeek-V3.2-Exp,访问方式保持不变 [19] - 此次技术突破为大模型突破长文本瓶颈指明了充满希望的工程路径 [18]
成本下降超50%!DeepSeek新模型API价格大幅下调,国产AI芯片第一时间适配
选股宝· 2025-09-30 07:28
大模型成本与技术进步 - DeepSeek宣布其API价格因新模型服务成本大幅降低而下调,开发者调用成本将降低50%以上[1] - 近3年AI推理侧算力成本与大模型调用成本持续下降,硬件成本每年下降约30%,能效每年提升约40%[1] - DeepSeek提供蒸馏功能,可将大型复杂模型知识迁移到小型高效模型,其蒸馏模型在推理效率、计算资源和内存使用方面实现优化[1] AI应用商业化与Agent发展 - 推理侧算力成本及模型调用成本的快速下降为AI应用商业化提供了底层经济性支撑[1] - 大模型快速迭代及推理与工具调用能力增强催生了强大的自定义Agent应用前景[2] - 寒武纪、华为昇腾已官宣实现对DeepSeek-V3.2-Exp的软硬件适配,并开源大模型推理引擎vLLM-MLU源代码[2] 相关公司与产品动态 - 在Agent和AI应用领域涉及的公司包括泛微网络、金山办公、鼎捷数智[3] - 与华为昇腾相关的公司包括软通动力、常山北明[4] - 久其软件计划在2025年年初升级其女娲GPT,推出智能问数、智能问答等智能体应用,并表示其Ai蒸馏技术与Deepseek类似[4]
上证早知道|新型政策性金融工具 来了;机械行业迎利好 六部门联合印发;DeepSeek 降价
上海证券报· 2025-09-30 07:04
宏观经济与政策 - 新型政策性金融工具规模达5000亿元,全部用于补充项目资本金 [1][2] - 机械行业稳增长工作方案提出,2025-2026年力争营业收入年均增速达3.5%左右,营业收入突破10万亿元 [2] - 2024年全国研究与试验发展经费投入36326.8亿元,比上年增长8.9% [3] - 2024年文化产业实现营业收入19.14万亿元,较2020年增长37.7% [2] 券商与金融市场 - 9月1日至9月26日,超270亿元资金涌入券商相关ETF,其中国泰中证全指证券公司ETF获超100亿元资金买入 [4] - 华宝中证全指证券公司ETF规模达607亿份,较8月底增长超两成,资产规模达353.34亿元,较8月底增长超一成 [4] - 42家上市券商上半年合计营收2518.66亿元,同比增11.37%,归母净利润同比大增65.08% [5] - 多只宽基权益类ETF于9月26日净申购额合计达222亿元,创过去五个多月新高 [3] 人工智能与科技 - DeepSeek发布DeepSeek-V3.2-Exp模型,新API价格政策使开发者调用成本降低50%以上 [1][3] - OpenAI第三届开发者大会定于10月6日举行,聚焦AI技术在硬件领域的应用拓展 [7] - 三大运营商均已获得卫星移动通信业务经营资质,可依法开展手机直连卫星等业务 [2] - 恒为科技拟收购数珩科技75%股权,拓展下游AI应用领域 [14] 锂电池与上游材料 - 电池厂10月排产环比增长10%,同比增长35%,全年需求增速预计超35% [8] - 铜箔行业建议将电子铜箔加工费平均上调2元/公斤,以扭转行业亏损局面 [8] - 华友钴业与LGES签订协议,2026-2030年供应三元前驱体7.6万吨、三元正极材料8.8万吨 [10] - 中伟股份与厦钨新能源签署协议,预计未来三年合作量达约11.5万吨/年 [11] 公司订单与业绩 - 中国中车近期签订合同金额约543.4亿元,约占2024年营业收入的22% [9] - 英联股份前三季度归母净利润同比增长1531.13%-1672.97% [13] - 华秦科技签订销售合同金额合计4.02亿元 [12] - 富临精工拟与宁德时代共同对子公司增资,宁德时代增资25.63亿元,交易后持股51% [15] 机构资金动向 - 天赐材料获两家机构席位合计买入2.21亿元,占全天成交总额的2.73% [16] - 广发证券获3家机构席位合计买入2.54亿元,另有3家机构席位合计卖出2.08亿元 [17]
海光DCU率先支持DeepSeek-V3.2-Exp
经济观察网· 2025-09-29 23:41
技术发布与适配 - DeepSeek-V3.2-Exp于9月29日发布并开源 引入稀疏Attention架构 [1] - 海光DCU率先实现无缝适配和深度调优 确保大模型算力"零等待"部署 [1] 公司战略与生态建设 - 海光信息在"深算智能"战略下致力于AI软件栈生态建设 全面支持以DeepSeek为主流的全球主流开源大模型 [1] - 海光DCU快速完成对DeepSeek-V3.2-Exp的"Day0"级高效适配与优化 [1] 技术性能与优势 - DeepSeek-V3.2-Exp在海光DCU上展现出优异性能 验证了DCU高通用性、高生态兼容度及自主可控的技术优势 [1] - 基于GPGPU架构生态优势和编程开发软件栈DTK特性 海光DCU成为支撑AI大模型训练与推理的关键基础设施 [1]
DeepSeek-V3.2-Exp发布 API成本将降低50%以上
凤凰网· 2025-09-29 22:07
模型技术更新 - DeepSeek-V3.2-Exp模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [1] - 新模型针对长文本的训练和推理效率进行了探索性优化和验证 [1] - 在各领域公开评测集上,DeepSeek-V3.2-Exp表现与V3.1-Terminus基本持平 [1] 产品与服务部署 - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型 [1] 商业策略调整 - DeepSeek API价格大幅下调,新价格政策下开发者调用成本将降低50%以上 [1]
DeepSeek-V3.2-Exp来了,API价格再度大幅下调
凤凰网· 2025-09-29 22:03
新产品发布与性能 - 公司于2025年9月29日发布DeepSeek-V3.2-Exp模型,该模型在V3.1-Terminus基础上引入了创新的DeepSeek Sparse Attention稀疏注意力机制 [2] - 新机制旨在优化长文本的训练和推理效率,且能在几乎不影响模型输出质量的前提下大幅提高长文本处理效率 [2] - 在各大公开评测集上,V3.2-Exp模型表现与V3.1-Terminus几乎持平,例如MMLU-Pro得分均为85.0,GPQA-Diamond得分分别为80.7和79.9 [3] - 部分基准测试显示性能提升,如Codeforces-Div1得分从2046提升至2121,AIME 2025得分从88.4提升至89.3 [3] 成本与可及性 - 公司宣布API价格大幅度下调,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [2][3] - V3.2-Exp版本已同步更新至官方App、网页端及小程序,提升了产品的可及性 [3] - 公司表示V3.2-Exp模型已在Huggingface与魔搭平台开源,用户可直接访问并进行二次开发 [5]
DeepSeek发布新模型V3.2-Exp并再度降价
新京报· 2025-09-29 21:28
模型发布与更新 - 公司于9月29日发布实验性模型DeepSeek-V3.2-Exp [1] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [1] - 新模型针对长文本的训练和推理效率进行探索性优化和验证 [1] - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型 [1] 定价策略调整 - 公司同步进行API大幅度降价 [1] - 新API价格为每百万tokens输入0.2元(缓存命中),2元(缓存未命中),输出3元 [1] - 此次调价使开发者调用DeepSeek API的成本降低逾50% [1]
DeepSeek-V3.2-Exp发布,训练推理提效,API成本降50%以上
搜狐财经· 2025-09-29 21:18
模型发布与技术更新 - 公司发布DeepSeek-V3.2-Exp模型,这是一个实验性版本,作为迈向新一代架构的中间步骤[1] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证[1] - 在各领域公开评测集上,DeepSeek-V3.2-Exp表现与V3.1-Terminus基本持平[1] 产品部署与开源情况 - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型[1] - DeepSeek-V3.2-Exp模型现已在Huggingface与魔搭平台开源[1] 商业策略与定价调整 - 公司同步实施API大幅度降价政策[1] - 在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上[1]
深度求索正式发布DeepSeek-V3.2-Exp模型
北京商报· 2025-09-29 20:58
公司产品发布 - 深度求索公司于9月29日正式发布DeepSeek-V3.2-Exp模型 [1] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [1] - 该机制针对长文本的训练和推理效率进行了探索性优化和验证 [1] 产品部署与更新 - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型 [1] - API应用程序编程接口同步更新并实行大幅度降价 [1] 价格策略调整 - 在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [1]
DeepSeek,新版本
中国证券报· 2025-09-29 20:39
DeepSeek-V3.2-Exp模型发布 - 9月29日DeepSeek发布实验性版本DeepSeek-V3.2-Exp 在V3.1-Terminus基础上引入稀疏注意力机制以优化长文本训练和推理效率 [1] - 新模型服务成本大幅降低使API价格下调超过50% 所有终端平台同步更新 [1] - 华为昇腾实现0day支持并开源推理代码 在128K长序列下保持TTFT低于2秒和TPOT低于30毫秒的推理性能 [3] 寒武纪适配与优化进展 - 寒武纪同步适配DeepSeek-V3.2-Exp并开源vLLM-MLU推理引擎源代码 支持开发者在其软硬件平台体验新模型 [1] - 通过Triton算子开发和BangC融合算子实现快速适配与性能优化 达成业界领先计算效率水平 [2] - 长期支持主流开源大模型生态 此前对DeepSeek系列已实现业界领先算力利用率 [2] 华为昇腾技术部署 - 基于vLLM/SGLang推理框架完成适配部署 开源所有推理代码和算子实现 [3] - 在CANN平台完成BF16模型优化适配 采用大EP并行方案与CP并行策略兼顾时延和吞吐 [3] DeepSeek模型迭代历程 - 8月21日发布DeepSeek-V3.1 9月22日升级至Terminus版本 改进语言一致性问题并缓解中英文混杂及异常字符情况 [3]