Workflow
Sparse Attention Mechanism
icon
搜索文档
DeepSeek-V3.2上线国家超算互联网 开发者可免费下载
搜狐财经· 2025-09-30 19:58
模型发布与技术进展 - DeepSeek于9月29日正式发布实验性模型DeepSeek-V3.2-Exp [1] - 新模型在V3.1-Terminus基础上引入DeepSeekSparseAttention稀疏注意力机制 [1] - 该技术针对长文本训练和推理效率进行探索性优化验证 [1] - DeepSeekSparseAttention首次实现细粒度稀疏注意力机制 [1] - 新技术在几乎不影响模型输出效果前提下大幅提升长文本训练和推理效率 [1] 平台接入与开发者服务 - DeepSeek-V3.2-Exp于9月30日上线国家超算互联网AI社区 [1] - 模型依托国产深算智能加速卡及全国一体化算力网运行 [1] - 企业和开发者均可在AI社区免费下载模型文件进行快速开发 [1] - 超算互联网AI社区已汇聚700余款国内外优质开源模型 [2] - 平台提供API调用、Chatbot在线推理对话、国产大模型分布式训练及微调等MaaS服务 [2]
DeepSeek-V3.2-Exp来了,API价格再度大幅下调
凤凰网· 2025-09-29 22:03
新产品发布与性能 - 公司于2025年9月29日发布DeepSeek-V3.2-Exp模型,该模型在V3.1-Terminus基础上引入了创新的DeepSeek Sparse Attention稀疏注意力机制 [2] - 新机制旨在优化长文本的训练和推理效率,且能在几乎不影响模型输出质量的前提下大幅提高长文本处理效率 [2] - 在各大公开评测集上,V3.2-Exp模型表现与V3.1-Terminus几乎持平,例如MMLU-Pro得分均为85.0,GPQA-Diamond得分分别为80.7和79.9 [3] - 部分基准测试显示性能提升,如Codeforces-Div1得分从2046提升至2121,AIME 2025得分从88.4提升至89.3 [3] 成本与可及性 - 公司宣布API价格大幅度下调,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [2][3] - V3.2-Exp版本已同步更新至官方App、网页端及小程序,提升了产品的可及性 [3] - 公司表示V3.2-Exp模型已在Huggingface与魔搭平台开源,用户可直接访问并进行二次开发 [5]
国庆前放大招!DeepSeek-V3.2-Exp发布并开源,API成本将降低50%以上
华尔街见闻· 2025-09-29 19:12
模型发布与开源 - DeepSeek-V3.2-Exp模型于9月29日在Hugging Face平台正式发布并开源[1] - 该模型是迈向下一代架构的重要中间步骤,在V3.1-Terminus基础上引入自研的DeepSeek Sparse Attention稀疏注意力机制[1] - 华为云已完成对该模型的适配工作,最大可支持160K长序列上下文长度[2] 技术创新与效率提升 - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下大幅提升长文本场景下的训练和推理效率[3] - 新架构能够降低计算资源消耗并提升模型推理效率,是对长文本效率的探索性优化与验证[1] - 为支持社区研究,公司还开源了新模型研究中设计和实现的GPU算子,包括TileLang和CUDA两种版本[10] 性能表现评估 - 模型训练设置与前代V3.1-Terminus严格对齐,在各大公开评测集上的表现与V3.1-Terminus基本持平[5] - 具体性能指标:MMLU-Pro保持85.0分,GPQA-Diamond从80.7分略降至79.9分,Codeforces-Div1从2046分提升至2121分[7] - 在多个基准测试中表现稳定,AIME 2025从88.4分提升至89.3分,BrowseComp-zh从45.0分提升至47.9分[7] 商业化与市场策略 - 官方API价格大幅下调超过50%,新价格已即刻生效[7] - 目前官方App、网页端和小程序均已同步更新至DeepSeek-V3.2-Exp版本[7] - 为便于开发者进行效果对比,公司为V3.1-Terminus版本临时保留API访问接口,调用价格与V3.2-Exp保持一致,该接口将保留至2025年10月15日[9]