Workflow
Sparse Attention
icon
搜索文档
Kimi Linear一作张宇:关于模型训练的一些感想
自动驾驶之心· 2025-11-06 08:04
模型架构创新 - 模型采用混合专家架构 将MoE稀疏度从8提升至32 显著增强模型容量[4] - 核心设计原则为线性注意力 具体实现为KDA方法 在GDN基础上融入GLA的细粒度门控[4] - 采用混合模型方案 KDA与MLA的层混合比例为3:1 该比例经消融实验证实为效率与性能最优解[5] - 循环公式中关键部分为Decay机制 通过数学表达式实现状态更新[4] 性能表现 - 在5.7T训练token和3B激活参数条件下 模型效果实现巨大提升 多项基准测试呈现显著优势[7] - 解码方面因KDA的KV缓存占用小 批量大小补偿后加速比达到6倍[8] - 在数学/代码类基准测试上受参数规模限制 但模型个性表现突出 具有小K2模型特质[8] - 实际使用体验与榜单成绩达成平衡 避免为追求分数牺牲用户体验[13] 训练过程 - 模型规模达48B MoE 训练量5.7T 采用分阶段扩展策略 从1B参数开始逐步验证性能[10][11] - 训练过程中发现关键参数需保持fp32精度 中途切换精度可能影响训练效果[12] - 后训练方案经过数十种数据配方尝试 最终形成成熟方案[13] - 采用严格的内科监控机制 任何明显性能差异都会触发回退至上一阶段[11] 技术路线定位 - 本次技术报告定位为技术验证 主要战场放在1T公平比较实验 为下一代K3模型铺垫[14] - 线性注意力技术路线逐渐收敛至Delta变体 同时稀疏注意力路线如NSA也受到关注[18] - 模型开源旨在推动混合模型实际落地 为行业提供新的技术启发[19] - 当前时间窗口适合线性注意力发展 因智能体应用需要32k+长上下文支持[17]
DeepSeek发布新模型V3.2-Exp并再度降价
新京报· 2025-09-29 21:28
模型发布与更新 - 公司于9月29日发布实验性模型DeepSeek-V3.2-Exp [1] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [1] - 新模型针对长文本的训练和推理效率进行探索性优化和验证 [1] - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型 [1] 定价策略调整 - 公司同步进行API大幅度降价 [1] - 新API价格为每百万tokens输入0.2元(缓存命中),2元(缓存未命中),输出3元 [1] - 此次调价使开发者调用DeepSeek API的成本降低逾50% [1]
“价格屠夫”DeepSeek上线,新模型成本下降超50%
第一财经· 2025-09-29 19:50
模型发布与定价策略 - 公司正式发布DeepSeek-V3.2-Exp模型,调用价格大幅降低,输出价格大降75%[1] - 在新价格政策下,开发者调用API的成本将降低50%以上[1] - 具体价格变动:输入价格在缓存命中时从0.5元/百万tokens降至0.2元/百万tokens,缓存未命中时从4元/百万tokens降为2元/百万tokens;输出价格从12元/百万tokens直接降至3元/百万tokens[3] 技术优化与性能表现 - V3.2-Exp作为实验性版本引入DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证[3] - 通过细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下实现长文本训练和推理效率的大幅提升[3] - 在各领域公开评测集上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平,其中MMLU-Pro得分85.0,GPQA-Diamond得分80.7,Humanity's Last Exam得分21.7[4][5] 模型部署与开源支持 - 模型已在Huggingface与魔搭平台开源,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp[5] - API模型版本已更新为DeepSeek-V3.2-Exp,访问方式保持不变[5] - 为支持社区研究,公司开源新模型研究中设计和实现的GPU算子,包括TileLang和CUDA两种版本,建议研究性实验优先使用基于TileLang的版本以便调试和快速迭代[6] 版本迭代与市场预期 - 此次发布距离9月22日发布的V3.1-Terminus模型仅一周时间,打破了业界对V3系列迎来终极版本的猜测[6] - 公司在年初出圈后每次更新都受业界瞩目,但近期几次更新均为小版本迭代,市场对V4和R2版本的呼声越来越高[6] - 结合此次发布情况,市场预期近期不会看到V4和R2版本的重大更新[6]
大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起
晚点LatePost· 2025-03-02 14:10
大模型注意力机制改进 - 近期DeepSeek和Kimi分别推出NSA和MoBA架构,聚焦改进大模型核心机制"注意力机制",旨在提升长文本处理能力[4] - 注意力机制优化需解决两大瓶颈:显存开销随序列长度线性增长、计算复杂度呈平方级增长[16] - 稀疏注意力成为主流改进方向,通过仅保留关键连接提升效率,数学上Softmax机制天然支持稀疏性[16] 技术实现路径 - NSA采用硬件协同设计,在Block级别进行稀疏计算,利用Triton框架优化GPU并行效率,实现11.6倍解码加速[24][31] - MoBA创新性地在预训练阶段引入稀疏性,通过混合分块注意力保留远距离关键信息,效果超越稠密注意力[20][37] - 两种方案均采用动态稀疏机制,结合内容相关性动态选择关注区域,平衡效率与效果[38] 性能验证 - NSA在270亿参数模型训练中,损失曲线与稠密注意力趋同,推理任务表现更优[42][46] - MoBA在Llama-8B模型测试中,GSM8K数学推理得分达0.7278,优于稠密模型的0.7142[49] - 长文本专项测试显示,32K输入下末端1K词元预测损失显著降低[43] 行业应用前景 - 多模态发展将大幅增加输入长度,1小时视频相当于100万token,需开发跨模态注意力模式[55] - 长思维链生成成为RL训练关键,DeepSeek-R1显示输出长度随训练步数持续增长[26][28] - 科研场景被视为AGI重要突破口,需存储数月研究过程数据并支持复杂推理[59][62] 硬件与算法协同 - GPU显存发展滞后算力增长,B200显存仅为A100的1.2倍,迫使算法层压缩存储需求[53] - 系统层优化如FlashAttention使显存占用降低量级,算子级优化成为效率突破关键[20][35] - 未来可能结合RNN固定存储优势与注意力机制,探索存储复杂度新平衡点[53]